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(g) Registrierverfahren 

(§) Beschrieben wird eln Verfahren zum Betrleb einer um- 
konfigurierbaren Einheit. Es wird dabei vorgeschlagen, 
dass Quittierungssignale der die umkonfigurierbaren Ein- 
heit bildenden Zelien zeitlich versetzt zu deren Konftgura- 
tion ausgewertet werden. 
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Beschieibung 

Aufgabe der Erfindung und Anwendungsbereiche 

5 [0001] RDY/ACK/REJ-Protokoll und Deadlock-FreiheiL 

[0002] Das aus PACTIO bckannte RDY/ACK/REJ Protokoll kann nicht Uber mehrere Register gepipelined werden. 
[0003] Zur Erhdhung der Grund&equenz einer VPU sind mehrere Registerstufen jedoch zwingend notwendig. Da- 
durch eigibt sich eine unakzeptable Verzdgerung bis zum Eintieffen der Quittierung der Konfigurationsdaten bei dem 
CT. 

10 [0004] Es werden im folgenden zwei grundlegende Losungen fur dieses Ptoblein aufgezeigt: 

l.Lookup-Tabellen 

[0005] In eine CT oder 2602 interne Tabelle wird der Zustand der einzelnen PAEs verwaiteL D. h. fur jede PAE exisi- 
15 tert ein Eintrag, der anzeigt ob die PAE unkonfiguriert werden kann. 

a) Jede PAE sendet ein Statussignal an die Tabelle wenn sich ihr Zustand von "nicht umkonfigurierbar" auf "konfi- 
gurierbar" andert. Dieses Statussignal kann gepipelined gesendet werden. 

b) EbenfaUs ist es moglich, daB ein Statussignal fur eine Gruppe von PAEs gesendet wird, das anzeigt, daB sich der 
20 Zustand fiir die gesamte Gruppe geandert hat. Ober eine Liste werden samtliche PAEs die zur Gruppe gehoren aus- 

gewahlt und der Zustand fur jede einzelne PAE in der Ikbelle geSndert 

[0006] Zur t)berprufung des Zustandes einer PAE wird 

25 a) vor dem Ausftihren der pa-Befehle wird jede darin enthaltene PAE gepriift, indem fur jede PAE ein Lookup in 

der Tabelle durchgefuhrt wird. Eine nicht konfigurierbare PAE fuhrt zu einem Abbruch, der pa-Befehl wird nicht 
ausgefuhrt; oder 

b) beim Absenden der Adresse der Ziel-PAE durch ein pa-Befehl wird die Lookuptabelle abgefragt und dement- 
sprechend ein ACK oder REJ generiert (dieser Ansatz entspricht dem herkommlichen RDY/ACK/REJ Nferfahren). 

30 

2. Auswerten der ACK/REJ Quittierung mit Latency 

[0007] Das RDY-Signal wird mit den Konfigurationsdaten iiber mehrere Pipeline-Stufen an die Ziel-PAE gesendet. 
35 Die Konfigurationsdaten werden nicht sofort im entsprechenden Konfigurationsregister gespdchert. sondem in ein tem- 
porares Register geschrieben. Die PAE generiert die ACK/REJ-Quittierung gemaB des intern verwalteten Umkonfigura- 
tionsstatus (vgl. PACTIO). Die Quittierung wird ebenfalls gepipelined an die CT zuriickgesendeL In der CT existiert ein 
Zahler der bei jedem einUreflfenden ACK um eins erhoht wird. In einem separaten Register wird gespeichert, ob ein REJ 
auftrat wurde. 

40 [0008] Nachdem der pa-Befehl abgeschlossen wurde wird nach einer Latency von n-1^ten der Zahler und das Regi- 
ster ausgewertet. Ist in dem Register ein REJ vermerkt, muB der pa-Befehl nochmals ausgefuhrt werden. Dazu wird der 
Zahlersland entweder in den Offsetspeicher kopiert (pabmm) oder in das angegebene Register gespeichert (pabmr). Der 
Wert reprasentiert das Konfigurationswort, das mit einem REJ-quittiert wurde und nochmals ausgefuhrt werden muB. 
[0009] Terminiert der pa-Befehl ohne Auftreten eines REJ wird ein Signal STORE an die beteiligten PAEs gesendet 

45 Daraufhin werden die Konfigurationswdrter von dem temporaren Register in das entsprechende Konfigurationsregister 
geschrieben und die Datenoperationen werden gestartet. 

[0010] IST DAS S AUBER? DEADLOCK, was ist mit PAEs, die nach dem REJ aufgrund der Latency noch Daten ab- 
bekamen?! 

[OOU] Keine OK-Leitung verwenden, sondem ein Register bei den entsprechenden PAEs einfuehren. 

50 

Wave-Reconfiguration 

[0012] Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist es moglich mehrere Module zu uberlappen. 
D. h. mehrere Module sind gleichzeitig in den PAEs vorkonfiguriert und es kann mit minimalem Zeitaufwand zwischen 
55 den Konfigurationen umgeschaltet werden, so daB aus einer Menge von mehreren Konfigurationen pro PAE immer ge- 
nau eine Konfiguration aktiviert ist. 

[0013] Wesentlich ist, daB dabei in einer Menge von PAEs in die ein Modul A und B vorkonfiguriert ist, ein Teil der 
Menge mit einem Teil von A und eine andercr Teil der Menge gleichzeitig mit einem Teil B aktiviert sein kann. Dabei ist 
die Trennung der beiden Tbile exakt durch die PAE gegeben, in der der Umschallezustand zwischen A und B auftritt. Das 
60 bedeutet, dafi ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei denen vor diesem Zeitpunkt A zur AusfUh- 
rung aktiviert war B aktiviert ist und bei alien anderen PAEs nach diesem Zeitpunkt immer noch auf A aktiviert ist. Mit 
steigender Zeit wird bei immer mehr PAEs B aktiviert 

[0014] Die Umschaltung erfolgt aufgrund von bestimmten Daten, Zustanden die sich aus der Berechnung der Daten er- 
geben oder aufgrund beliebiger anderer Ereignisse, die beispielsweise von extern oder der CT generiert werden. 
65 [0015] Das bewirkt, daB direkt nach Verarbeitung eines Datenpaketes zu einer anderen Konfiguration umgeschaltet 
werden kann. Gleichzeitig/Altemativ kann ein Signal (RECONFIG-TRIGGER) an den CT gesendet werden, das das 
Vorladen von neuen Konfigurationen durch den CT bewirkt. Das Vorladen kann dabei auf anderen von der aktuellen Da- 
tenverarbeitung abhSngigen oder unabhMngigen PAEs erfolgen. Durch eine Entkopplung der aktiven Konfiguration von 
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den zur Unkonfigxiration zur Verfiigung siehenden Konfigurationen (vgl. Fig. 10/11) konnen auch gerade arbeitende (ak- 
tive) PAEs, insbesondere auch die PAE, die den RECONFIG-TRIGGER erzeugte, mit neuen Konfigurationen geladen 
werden. Dies ennoglichl eine mit der Daienverarbeitung uberlappende Konfiguration. 

[0016] In Fig. 13 ist das Grundprinzip der Wave-Reconfiguration (WRC) dargestellt. Dabei wird von einer Reihe von 
PAEs (PAEl-9) ausgegangen, durch die die Daten pipelineahnlich laufen. Es wird ausdriicklich darauf hingewiesen, daB 5 
WRC nicht auf Pipelines beschrankt ist und die Vemetzung und Gruppierung der PAEs jede beliebige Form annehmen 
kann. Die Darstellung wurde jedoch gewShlt um ein einfaches Beispiel zum besseren Verstandnis zu zeigen. 
[0017] In Fig. 13a ISuft ein Datenpaket in die PAEl. Die PAE besitzt 4 mogliche Konfigurationen (A, F, H, Q, die 
durch eine geeignete Hardware (vgl. Fig. 10/11) wahlbar sind. Die Konfiguration F ist in in PAEl fiir das aktuelle Da- 
tenpaket aktiviert (schraffiert dargestellt). 10 
[0018] Im nachsten Takt lauft das Datenpakt nach PAE2 und ein neues Datenpaket erscheint in PAEl . Auch in PAE2 ist 
F aktiv. Zusammen mit dem Datenpaket erscheint ein Ereignis (f 1) bei PAEl. Das Ergnis entsteht durch Eintreffen eines 
beliebigen Ereignisses von aussen bei der PAE (z. B. eines Statusflags oder Triggers) oder wird innerhalb der PAE durch 
die ausgefuhrte Berechnung generiert 

[0019] In Fig. 13c wird in PAEl aufgrund des Ereignisses (f 1) die Konfiguradon H aktiviert, gleichzeitig erscheint ein 15 

neues Ereignis (|2), das im nachsten Takt (Fig. 13d) die Aklivierung von Konfiguration A bewirkt. 

[0020] In Fig. 13e trifft (|3) bei PAEl, die das Uberschreiben von F mit G bewirict (Fig. 130- Durch das Eintteffen von 

(f4) wird G aktiviert (Fig. 13g). (fS) bewirkt das Laden von K anstelle von C (Fig. 13h, i) und (t6) ladt und startetFan- 

steUevonH(Fig.l3j). 

[0021] In den Fig. 13g*) bis 13j*) wild vcrdeutiicht, daB beim Durchlaufen einer Wave-Reconfiguradon nicht alle 20 
PAEs nach demselben Muster arbciten miissen. Wie eine PAE von einer Wave-Reconfiguration konfiguriert wird, ist 
prinzipiell abhangig von ihrer eigenen Konfiguration. Hier soli dargestellt werden, daB PAE4 bis PAE6 derart konfigu- 
riert sind, daB sie anders auf die Ereignisse reagieren, als die ubrigen PAEs. Beispielsweise wird in Fig. 13g*) aufgrund 
von Ereignis \2 nicht A sondem H aktiviert (vgl. Fig. 13g). Dasselbe gilt fur 13h*). Aufgrund von Ereignis 13 wild in 
Fig. 13i*) nicht G geladen, sondem die Konfiguration F bleibt bestehen und A bleibt aktiviert. In Fig. 13j*) ist bei PAE7 25 
angedeutet, daB Ereignis ] 3 wieder das Laden von G auslosen wird. In PAE4, bewirkt das Ereignis t4 das Aktivieren von 
F anstatt der Konfiguration G (vgl. Fig. 13j). 

[0022] In Fig. 13 bewegt sich eine Welle von Umkonfigurationen aufgrund von Ereignissen durch eine Menge von 
PAEs, die 2- oder mehrdimensional ausgestaltet sein kann. 

[0023] Es ist nicht zwingend notwendig, daB eine einmal stattfindende Umkonfiguration durch die gesamten HuB hin- 30 
weg stattfindet. Beispielsweise konnte die Umkonfiguration mit der Aktivierung von A aufgrund des Ereignisses (|2) nur 
lokal in den PAEsl bis 3 und PAE7 stattfinden, wahrend in alien anderen PAEs weiterhin die Konfiguration H aktiviert 
bleibt. 

[0024] Mit anderen Worten: 

35 

a) Es ist moglich, daB ein Ereigniss nur lokai auftritt und daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung auf manche PAEs; abhangig vom ausgefuhrten Al- 
gonthmus. 

[0025] Bei den PAEs die nach (|2) weiterhin H aktiviert halten, kann selbstverstandlich das EinU-effen des Ereignisses 40 
(f3) vollkommen andere Auswirkungen haben, (I) wie etwa das Aktivieren von C statt dem Laden von G, (ii) anderer- 
seits kormte (|3) auf diese PAEs auch gar keinen EinfiuB haben. 



Das P^ozessormodell 



45 



[0026] Die in den folgenden Figuren gezeigten Graphen besitzen als Graphenknoten immer in Modul, wobei davon 
ausgegangen wird, daB mehrere Module auf einen Zielbaustein abgebildet werden konnen. Das heiBt, obwohl alle Mo- 
dule zeitlich voneinander unabhangig sind, wird nur bei den Modulen eine Umkonfiguration durchgefiihrt, imd/oder ein 
Datenspeicher eingefugt, die mit einem vertikalen Strich und At markiert sind. Dieser Punkt wird Umkonfigurationszeit- 
punkt genannt. 50 
[0027] Der Umkonfigurationszeitpunkt ist abhangig von den bestimmten Daten oder den 2^standen die sich aus der 
Verarbeitung der bestimmten Daten ergeben. 
[0028] Das bedeutet zusammenfassend: 

1 . GroBe Module konnen an geeigneten S tellen partitionierl werden und in kleine zeitlich voneinander unabhangige 55 
Module zerlegt werden, die optimal in das Array aus PAEs passen. 

2. Bei kleinen Modulen die gemeinsam auf einen Zielbaustein abgebildet werden konnen, wird auf die zeitliche 
Unabhangigkeit verzichtet. Dadurch werden Konfigurationsschritteeingespart und die Daienverarbeitung beschleu- 
nigt. 

3. Die Umkonfigurationszeitpunkte werden entsprechend der Ressourcen der Zielbausteine positioniert. Dadurch 60 
ist eine beliebige Skalierung der Graphenlange gegeben. 

4. Module konnen uberlagert konfiguriert werden. 

5. Die Umkonfiguration von Modulen wird durch die Daten selbst oder dem Ergebnis der Verarbeitung der Daten 
gesteuert. 

6. Die von den Modulen generierten Daten werden gespeichert und die zeitlich nachfolgenden Module lesen die 65 
Daten aus diesem Speicher aus und speichem die Eigebnisse wiederum in einen Speicher oder geben das Endergeb- 

nis an die Peripherie aus. 
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Die ZustandsinformatiQQea des Ptozessonnodells 

[0029] Zur Bestimmung der Zustande innerhalb eines Graphen werden die Statusregister der einzelnen Zellen (PAEs) 
tiber ein zusatzlich zum Datenbus (0801) existierendes, frei rout- und segmentierbares Status-Bussystem (0802) alien an- 
5 deren Rechenweiken zur Verfugung gestelk (Fig. 8b). Das bedeutet, daB eine Zelle (PA£ X) die Statusinformadon einer 
andem Zelle (PAE Y) evaluieren kann und dementspiechend die Daten veraibeitet Urn den Unterschied zu bestehenden 
Parallebrechnersystemen zu verdeullicben, ist in Fig. 8a der Stand der Tecbnik aogegeben. Dabei ist ein Multiprozessor- 
system gezeigt, dessen Prozessoren iiber einen gemeinsamen Datenbus (0803) miteinander verbunden sind. Hn explizi- 
tes Bussystem fiir den synchronen Austausch von Daten und Status existiert nicht 

10 [0030] Mit anderen Worten ausgedriickt, stellt das Netzwerk der Statussignale (0802) ein frei und gezielt verteiltes Sta- 
tusregister eines einzelnen herkommlichen Prozessors (oder mehrerer Prozessoren eines SMP-Computers) dan Der Sta- 
tus jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und insbesondere jede einzelne Information des Status steht 
jeweils dem oder den ALUs (Prozessoren) zur Verfugung, die die Informadon benodgen. Dabei entsteht keine zusalzli- 
che Progranun- oder Konununikadonslauizeit (abgesehen von den SignalUaufzeiten) urn die Informadonen zwiscben 

15 den ALUs (Prozessoren) auszutauschen. 

[0031] Abschliefiend soli angemerkt werden, daS je nach Aufgabe sowohl der DatenfluBgraph, als auch der KontroU- 
flufigraph entsprechend dem beschriebenen Verfahren behandelt werden kann. 

Virtual Machine Modell 

20 

[0032] Die Grundlagen der Daten verarbeitung mit VPU-Bausteinen sind entsprechend der vorheigehenden Abschnitte 
hauptsachlich datenfluBoriendert. Um sequendeile Programme mit ordentlicher Leistung abzuarbeiten, ist es jedoch not- 
wendig ein sequendelles Daten verarbeitungsmodell zur Verfugung zu haben. Dabei sind oftmals die Sequenzer in den 
einzelnen PAEs nicht ausreichend. 
25 [0033] Die Architektur von VPUs ermoglicht jedoch grundsatzlich den Aufbau von beliebig komplexen Sequenzem 
aus einzelnen PAEs. 
[0034] Das bedeuted: 

1. £s konnen komplexe Sequenzer konfiguriert werden, die exakt den Anforderungen des Algorithmus entspre- 
30 cben. 

2. Der DatenfluB kann duich entsprechende Konfiguration, exakt die Rechenschritte des AlgoriUimus reprasende- 
ren. 

[0035] Dadurch kann eine Vutuelle Maschine auf VPUs implementiert werden, die insbesondere auch den sequentiel- 

35 len Anforderungen eines Algorithmus entspricht, 

[0036] Hauptvorteil der VPU- Architektur ist, daB ein Algorithmus durch einen Compiler so zerteilt werden kann, daB 
die DalenfluBteile extrahiert werden durch einen "optimalen" DatenfluB reprasendert werden, indem ein angepaBter Da- 
tenfluB konfiguriert wird UND die sequendellen Tfeile des Algorithmus durch einen "opdmalen" Sequenza: reprasendert 
werden, indem ein angepaBter Sequenzer konfiguriert wird. Dabei konnen gleichzeidg mehrere Sequenzer und Daten- 

40 fliisse auf einer VPU untergebracht werden, ausschlieBlich abhangig von den zur Verfugung stehenden Ressourcen. 
[0037] Durch die groBe Anzahl an PAEs entstehen im Beuieb innerhalb einer VPU sehr viele lokalen Zustande. Bei 
Taskwechseln oder Unterprogramm-Aufrufen (Interrupts) miissen diese Zustande gesichert werden (vgl. PUSH/POP bei 
Standardprozessoren). Dies ist jedoch aufgrund der Menge an Zustanden nicht sinnvoil moglich. 
[0038] Um die Zustande auf eine handhabbare Menge zu reduzi^en muB zwischen zwei Arten von Zustanden unter- 

45 schieden werden: 

1. Zustandsinformadonen des Maschinenmodells (MACHINE-SIATE). Diese Zustandsinformadonen sind nur in- 
n^halb der Abaibeitung eines bestimmten Modules gOltig und werden auch nur lokal in den Sequenzem und Da- 
tenfluBeinheiten dieses besdmmten Modules verwendet. D. h. diese MACHINE-STATEs reprasentieren die Za- 

50 stande, die in Prozessoren nach dem Stand der Tfechnik verdeckt innerhalb der Hardware ablaufen, implizit in den 
Befehlen und den Verarbeitungsschritten sind und nach Ablauf eines Befehles keine weitere Information fur nach- 
folgende Befehle beinhalten. Derartige Zustande brauchen nicht gesichert zu werden. Bedingung daflir ist, daB In- 
terrupts nur nach kompletter Ausfiihrung aller gerade akdven Module durchgefxihrt werden. Stehen Interrupts zur 
Ausfiihrung an, werden keine neuen Module geladen, sondem nur noch aktive abgearbeitet; eben falls werden den 

55 aktiven Modulen, soweit es der Algorithmus zulaBt keine neuen Operanden mehr zugefiihrt. Dadurch wird ein Mo- 

dul zu einer atomaren nicht unterbrechbaren Einheit. veigleichbar mit einer Instruktion eines Prozessors nach dem 
Stand der Technik. 

2. Zustande der Datenverarbeitung (DATA-STATE). Die datenbezogenen Zustande miissen beim AufUreten eines 
Interrupts entsprechend den Prozessormodellen nach dem Stand der Tbchnik gesichert und in den Speicher ge- 

60 schrieben werden. Das sind bestimmte notwendige Register und Hags oder - entsprechend der Begriflfe der VPU- 
Technologie - Trigger. 

[0039] Bei den DATA-STATEs kann die Handhabung je nach Algorithmus weiter vereinfacht werden. Zwei grundle- 
gende Strategien werden im Folgenden nahers erlautert: 

65 

1. Midaufen der Zustandsinformadon 
[0040] Dabei werden alle relevanten und zu einem sp^eren Zeitpunkt benddgten Zustandsinformadonen von einem 
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Modul zum nachsten ubertragen, wie es in Hpe lines oflmals standardmaBig implementiert isi. Die Zustandsinfonnado- 
nen werden dann zusammen mil deD Daten implizit in einem Speicher abgelegt, sodaB die Zustande bei einem Abnif der 
Daten zugleich zur Verfiigung slehen. Ein explizites Handhaben der Zustandsinfonnadonen i. b. millels PUSH und POP 
entfallt dadurch, was je nach Algorithmus einerseits zu einer wesentlichen Beschleunigung der Abarbeitung und ande- 
rerseits zu einer vereinfachten Programmierung fiihrt 5 
[0041] Die Zustandsinformalon kann wahlweise entweder mil dem jeweiligen Datenpaket gespeichert werden, oder 
nur im Falle eines Interrupts gesichert und besonders gekennzeichnet werden. 

2. Sichem der Reentry Adresse 

10 

[0042] Bei der Verarbeiiung von groBen Datenmengen, die in einem Speicher abgelegt sind, ist kann es sinnvoll sein 
die Adresse mindestens einer der Operanden des gerade verarbeiteten Datenpaketes mil dem Datenpaket zusammen 
durch die PAEs zu leiten. Dabei wird die Adresse nicht modifiziert sondem steht beim Schreiben des Datenpaketes in ein 
RAM als Pointer auf den letzten verarbeiteten Operanden zur Verfiigung. 

[0043] Dieser Pointer kann wahlweise entweder mit dem jeweiligen Datenpaket gespeichert werden, oder nur im Falle 15 
eines Interrupts gesichert und besonders gekennzeichnet werden. Insbesondere, wenn samtliche Pointer auf die Operan- 
den durch eine Adresse (oder eine Gruppe von Adressen) berechnet werden konnen ist es sinnvoil nur eine Adresse (oder 
eine Gruppe von Adressen) zu sichem. 

"ULIW"."UC3SC"-ModeU 20 

[0044] Fur das Verstandnis dieses (einem Prozessor nach dem Stand der Technik sehr ahiichen) Modells ist eine Erwei- 
terung der Betrachtungsweise der Aichitektur von VPUs erforderlich. Dabei dient das Virtual-Machine Modell als 
Grundlage. 

[0045] Das Array aus PAEs (PA) wird als in ihrer Architektur konfigurierbare Recheneinheit betrachtet. Der/die CT(s) 25 
stellen eine Ladeeinheit (LOAD-UNIT) fur Opcodes dar. Die lOAG(s) iibemehmen das Businterface und/oder den Re- 
gistersatz. 

[0046] Diese Anordnung ermoglicht zwei grundsatzUche Funktionsweisen, die im Betrieb gemischt verwendbar sind: 

1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur Ausfiihrung eines komplexen Befehls oder Be- 30 
fehisfolge konfiguriert und danach werden die auf diesen Befehl bezogenen Daten (das kann auch ein einziges Da- 
tenwort sein) verarbeitet Danach wird diese Gruppe umkonfiguriert, zur Abarbeitung des nachsten Befehles. Dabei 
kann sich die Gr5Be und Anordnung der Gruppe andem. GemaB den bereits besprochenen Partidonierungstechno- 
logien obliegt es dem Compiler, moglichst optimale Gruppen zu scbaffen. Duich den CT werden Gruppen als Be- 
fehle auf den Baustein "geladen**, dadurch ist des VerMien mit dem bekannten VLIW veigleichbar, nur dafi eriieb- 35 
iich mehr Rechenwerke verwaitet werden UND die X^metzungsstruktur zwischen den Rechenwerken ebenfalls 
vom Instruktionswort abgedeckt werden kann (Ultra Large Instruction Word = "ULIW"). Dadurch laBl sich ein sehr 
hoher Instruktion Level Parallelism (TLP) erreichen. (siehe auch Fig. 27). Ein Instruktionswort entspricht dabei ei- 
nem Modul. Mehrere Module konnen gleichzeitig verarbeitet werden, sofem es die Abhangigkeit der Daten zulaBt 
und geniigend Ressourcen auf dem Baustein frei sind. Wie bei VLIW-Befehlen wird fiir gewohnlich nach Ausfiih- 40 
ren des Instruktionswortes sofort das nachste Instruktionswort geladen. Zur zeitlichen Optimierung ist es dabei 
moglich das nachste InsUnjktionswort bereits wahrend der Ausfuhrung vorzuladen (vgl. Fig. 10). Bei mehreren 
moglichen nachsten Instruktionsworten konnen mehrere vorgeladen werden und vor der Ausfiihrung wird z. B. 
durch ein IViggersignal das korrekte Instruktionswort ausgewahlt. (siehe Fig. 4a B1/B2, Fig, 15 ID CHD K, Fig. 36 
AAB/C) 45 

2. Eine Gruppe von PAEs (das kann auch eine PA6 sein) wird zur Ausfuhrung einer haufig gebrauchten Befehls- 
folge konfiguriert. Die Daten, das kann auch hier ein einzelnes Datenwort sein, werden bei Bedarf der Gruppe zu- 
gefahit und von der Gruppe empfangen. Diese Gruppe bleibt Ober eine Vielzahl von Takten c^ne Umkonfiguration 
bestehen. Vergleichbar ist diese Anordnung mit einem speziellen Rechenwerk in einem Prozessor nach dem Stand 

der Technik (z. B. MMX), das fUr Spezialaufgaben vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen so 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes generierbai; mit dem Vorteil, daS diese Befehle an- 
wendungsspezifisch geschaffen werden konnen (Ultra-CISC = "UQSC"). 



Erweiterung des RDY/ACK-PtotokoUs (vgl. PACT02) 55 

[0047] In PACT02 ist ein RDY/ACK-Standardprotokoll beschrieben, das die wesentlichen Anforderungen gemaB den 
Synchronisationen von DE 44 16 881 in Hinblick auf eine typische DatenfluBapplikation beschreibt. Nachteil des Proto- 
kolles isl, daB ledigtich Daten gesendet und der Empfang bestatigt werden kann. Der umgekehrte Fall, indem Daten an- 
gefordert werden und das Versenden bestatigt wird (im Folgenden REQ/ACK genannt, ist zwar elektrisch mit demseiben 60 
Zweidrahtprotokoll losbar, jedoch semantisch nicht erfaBt Das gilt insbesondere, wenn REQ/ACK und RDY/ACK ge- 
mischt betrieben werden. 

[0048] Daher wird die klare Unterscheidung der Protokolle eingefiihrt: 
RDY: Daten liegen beim Versender fiir den Empfanger bereit 

REQ; Daten werden vom Empfanger beim Versender angefordert 65 
ACK: AUgemeine Bestatigung fiir erfolgten Empfang oder Vfersand 

(Prinzipiell konnten auch zwischen ACK fiir ein RDY und einem ACK fiir ein REQ unterschieden werden, jedoch ist in 
den Protokolien die Semantik des ACKs fiir gewohnlich implizit). 



5 



DE 100 28 397 A 1 



Speichennodell 

[0049] In VPUs konnen Speicher integriert werden (einer oder mehrere), die ahnlich einer PAE angesprochen werden. 
Es witd im folgenden ein Speichennodell beschrieben, das gleichzeitig ein Interface zu extemer Peripherie und/oder ex- 
5 ternem Speicher darstellt: 

[0050] Ein VPU-inlemer Speicher mit PAE-ahnlichen Busfiinktionen kann verschiedene Speichennodi darstellen: 

1. Standardspeicher (Random Access) 

2. Cache (als Erweitenmg des Siandardspeichers) 
10 3. Lookup-Tabelle 

4. FIFO 

5. UFO (Stack) 

[0051] Dem Speicher ist ein steu^ares Interface zugeordnet, das Speicherbereiche wahlweise wort- oder blockweise 
IS schreibt oder liest. 

[0052] Dadurch eigeben sich folgende Nutzungsmdglichkeiten: 

h Entkopplung von Datenstromen (FIFO) 

2. Schneller Zugriff auf selektierte Speicherbereiche eines extemen Speichers, was eine Cacheahniiche Funktion 
20 darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarerTSefe (UFO) 

[0053] Dabei katm das Interface benutzt werden, es ist jedoch nicht zwingend notwendig, wenn die Daten z. B. aus- 
schheBlich lokal in der VPU verwendet werden und der Speicherplatz eines intemen Speichers ausieicht. 

25 

Stack Modell 

[0054] Durch Verwendung des REQ/ACK-ProtokoUs und der intemen Speicher im LIFO-Modus kann ein einfacher 
Stack-Prozessor aufgebaut werden. Dabei werden temporare Daten von den PAEs auf den Stack geschrieben und bei Be^ 
30 darf von dem Stack geladen. Die hierfur notwendigen Compilertechnologien sind hinreichend bekannt. Durch die vari- 
ierbare Stacktiefe, die durch einen Datenaustausch des intemen Speicher mit einem extemen Speicher erreicht wird, 
kann der Stack beliebig groB werden. 

Akkumulator Modell 

35 

[0055] Jede PAE kann eine Recheneinheit nach dem Akkumulatorprinzip darstellen. Wie aus PACT02 bekannt ist es 
moglich die Ausgangsregister auf den Eingang der PAE riickzukoppeln. Dadurch entsteht ein Akkumulator nach dem 
Stand der Ibchnik. In Verbindung mit dem Sequenzer nach Fig. 11 lassen sich einfache Akkumulator-Prozessoren auf- 
bauen. 

40 

Register Modell 

[0056] Durch Verwendung des REQ/ACK-Protokolls und der intemen Speicher im Standardspeicher-Modus kann ein 
einfacher Register-Prozessor aufgebaut werden. Dabei werden die Registeradressen von einer Gmppe von PAEs gene- 
45 riert, wahrend eine andere Gmppe von PAEs die Verarbeitung der Daten ubemimmt 

Architektur des Speichm 

[0057] Der Speicher besitzt zwei Interface. Ein erstes, das den Speicher mit dem Array verbindet und ein zweites, das 
50 den Speicher mit einer lOEinheit verbindet. Zur Verbessemng der Zugri£fszeit soUte der Speicher als Dual-Ported-RAM 
ausgestaltet sein, wodurch Schreib- und LesezugriflPen unabhangig voneinander erfolgen konnen. 
[0058] Das erste Interface ist iibliches PAE-Interface (PAEI), das den Zugang zum Bussystem des Arrays gewahrlei- 
stet, sowie die Synchronisation und Triggerverarbeitung sichersteUt. TVigger konnen verwendet werden und verschie- 
dene Zustande des Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, beispielsweise 

55 

1. Empty/Full: Beim Einsalz als FIFO wird der FIFO-Zustand "voll", "fast-voU", "leer", "fast-leer" angezeigt; 

2. Stack overrun/undemm: Beim Einsatz als Stack werden tlberlauf und Unterlauf des Stacks signalisiert; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, ob eine Adresse im Cache gefunden wurde; 

4. Cache flush: Durch einen TCgger wird das Schreiben des Caches in den extemen RAM erzwungen. 

60 

[0059] Dem PAE-Interface zugeordnet ist eine konfigurierbare Zustandsmaschine, die die verschiedenen BeUiebsarten 
steuert. Der Zustandsmaschine ist ein Z^ler zugeordnet urn die Adressen im FIFO- und UFO-Modus zu generieren. Die 
Adressen werden iiber einen Multiplexer an den Speicher geftihrt, damit zusatzlich Adressen, die im Array generiert wer- 
den an den Speicher gefuhrt werden konnen. 
65 [0060] Das zweite Interface dieai zum AnschluB einer lO-Einheit (lOI). Die lO-Einheit ist als konfigurierbarer Kon- 
troller mit einem extemen Interface ausgestaltet. Der Kontroller liest oder schreibt wort- oder blockweise Daten in bzw. 
aus dem Speicher. Die Daten werden mit der lOEinheit ausgetauscht. Weiterhin unterstutzt der Kontroller mittels eines 
zusStzlichen TAG-Speichers diverse Cache-Funktionen. 
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[0061] lOI und PAEI sind raiteinander synchronisiert, sodafi keine Kollision der beiden Interface eintritt. Die Synchro 
nistation ist je nach Betriebsait unterschiedlich^ wahrend beispielsweise im Standardspeich^- oder Stack-Mode inimer 
nur entweder das lOI oder das PAEI auf den gesamten Speicher zugreifen kann, ist im FIFOModus die Synchronisation 
zeilenweise, d. h. wahiend lOI auf eine Zeile x zugreift, kann das PAEI auf jede andeie Zeile ungleicb x gleichzeitig zu- 
greifen. 5 
[0062] Die lO-Einheit wird entsprechend der peripheren Erfordemisse ausgestaltet, beispielsweise: 

1. SDRAM Kontcoiler 

2. RDRAM KontroUer 

3. DSP-Bus KontroUer 10 

4. PaKonUx)Uer 

5. Serieller KontroUer (z. B. NGIO) 

6. Spezial Purpose KontroUer (SCSI, Ethernet, USB, etc.) 

[0063] Eine VPU kann beliebige Speichereiemente mil beUebigen lOEinheiten besitzen. Dabei konnen unterschiedU- 15 
che lO-Einheiten auf einer VPU implementiert sein. 

Funktionsweise 

1. Standardspeicher 20 
1.1 intem/lokal 

[0064] tiber das PAEI werden Daten und Adressen mil Speicher ausgetauscht. Die adressierbare SpeicheigroSe ist 
durch die Speichergrofie beschrankt. 25 

1.2 extern/memory mapped window 

[0065] tiber das PAEI werden Daten und Adressen mit dem Speicher ausgetauscht. Im KontroUer des lOI ist eine Ba- 
sisadresse im extemen Speicher angegeben. Der KontroUer liest blockweise Daten von der extemen Speicheradresse und 30 
schreibt sie in den Speicher, wobei die intemen und extemen Adressen jeweUs inkrementiert (oder dekrementiert) wer- 
den; so lange, bis der gesamte interne Speicher ubertragen wurde oder eine voreingestellte Grenze erreicht wurde. Das 
Array arbeitet mit deo iokalen Daten, bis diese vom KontroUer wieder in den extemen Speicher geschrieben werden. Das 
Schreiben verlauft analog dem beschriebenen Lesevorgang. 

[0066] Das Lesen und Schreiben durch den KontroUer kann 35 

a) durch Trigger angestoBen werden oder 

b) durch einen ZugrifT des Arrays auf eine nicht lokal 

gespeicherte Adresse. Greift das Array auf eine derartige Adresse zu, wird zunachst der interne Speicher in den extemen 40 
geschrieben und danach der Speicherbiock um die gewiinschte Adresse nachgeladen, 

[0067] Diese BeUiebsart ist besonders fur die Implementierung eines Registersatzes fiir einen Registerprozessor inter- 
essant. Durch einen Trigger kaim in diesem Fall das Push/Pop des Registersatzes mit dem extemen Speicher fur einen 
Taskwechsel oder eine Kontextumschaltung realisiert werden. 



1.3 extem/lookup table 



2. FIFO 



45 



[0068] Die Lookup TabeUen Funktion ist eine Vereinfachung von 1.2. Dabei werden die Daten entweder einmal oder 
mehrmals durch einen CT- Au&uf oder einen IVigger vom extemen RAM in den intemen gelesen. Das Array liest Daten 
aus dem intemen Speicher, schreibt jedoch keine Daten in den intemen Speicher. Die Basisadresse im extemen Speicher 50 
ist im KontroUer entweder durch die CT oder das Array gespeichert und kann zur Laufeeit verandert werden. Das Laden 
aus dem extemen Speicher wird entweder von der CT oder durch einen IVigger aus dem Array ausgeldst und kann eben- 
falls zur Laufzeit geschehen. 

1.4extem/cached 55 

[0069] In diesem Modus greift das Array wahlweise auf den Speicher zu. Der Speicher arbeitet wie ein Cache-Speicher 
fiir den extemen Speicher nach dem Stand der Technik. Durch einen Trigger aus dem Array oder durch die CT kann des 
leeroi des Caches (d. h. das voUstandige Schreiben des Caches in den extemen Speicher) hervoigemfen werdra. 



60 



[0070] Der FIFO-Modus wird UbUcherweise verwendet, wenn Datenstrdme von extem an die VPU gefuhrt werden. 
Dann dient der FIFO als Entkopplung zwischen der extemen Datenverarbeitung und der VPU-intemen Datenverarbei- 
tung, derart daB entweder von extern auf den FIFO geschrieben wird und von der VPU gelesen oder genau umgekehrt. 65 
Die Zustande des FIFOs werden durch Trigger zum Array und ggf. auch nach extern signalisiert. Der FIFO selbst wird 
nach dem Stand der Technik mit unterschiecUichen Schreib- und Lesezeigem implementiert. 
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3. Staclc/intem 



[0071] Duich ein Adressregister word ein inlerner Stack aufgebaul. Bei jedem Schreibzugriff auf den Speicher durch 
das Airay wird das Register je oach Mode (a) inkrementiert (b) dekiementiert Bei Lesezugriffen vom Array aus wirddes 
5 Register umgekehrt (a) dekrementiert und (b) inkrementiert Das Register stellt fur jeden ZugriflF die erforderliche 
Adresse zur Verfugung. Der Stack ist durch die Grofie des Speichers begrenzt. Fehler (Oberlau£^nterlauO werden durch 
Trigger angezeigt. 

4. Stack/extern 

10 

[0072] Sofem der interne Speicher zu klein fiir den Aufbau eines Slacks ist, kann er in den exiemen Speicher ausgeia- 
gert werden. Dazu besteht im Kontroller ein Adresszahler fiir die exteme Stackadresse. Wird eine beslimmte Menge an 
Eintragen im intemen Stack iiberschritten, wird blockweise eine Anzahl von Eintragen auf den extemen Stack geschrie- 
ben. Der Stack wird vom Ende her, also vom altesten Eintrag aus nach extern geschrieben, wobei eine Menge von neue- 
15 slen EinUragen nicht nach extern geschrieben wird, sondem intern verbleibt. Der exteme Adresszahler (ERC) wird zei- 
lenweise modifiziert. 

[0073] Nachdem Platz im intemen Stack geschaifen wurde muB der verbleibende Stack-Inhalt an den Beginn des 
Stacks bewegt werden, die interne Stackadresse wild entsprechend angepafit 

[0074] Eine eflfizientere Variantc ist des Ausiegen des Stacks als Ringspeicher (vgL PACT04). Ein intemer Adresszah- 
20 ler wird durch das Hinzufiigen oder Entfemen von Stackeintragen modifiziert. Sobald der interne Adresszahler (lAC) am 
oberwi Ende des Speichers uberschreitet, zeigi er auf die unterste Adresse. Unterschreitet derlAC die unterste Adresse, 
zeigt er auf die oberste, Ein zusatzlicher Zahler (FC) zeigt den FuUstand des Speichers an, d, h. mit jedem geschriebenen 
Wort wird der Zahler inkrementiert, mit jedem gelesenen dekrementiert. Anhand des FC ist erkennbar, wann der Spei- 
cher leer, bzw. vol! ist Diese Technologic ist von FIFOs bekannt Wird damit ein Block in den extemen Speicher ge- 
25 schrieben, reicht die Anpassung des FC um den Stack zu aktualisieren. Ein extemer Adresszahla: (EAC) zeigt immer auf 
den altesten im internen Speicher befindlichen EinUrag und befindet sich damit an dem lAC entgegengesetzten Ende des 
Stacks. Der EAC wird modifiziert, wenn 

(a) Daten auf den extemen Stack geschrieben werden, dann lauft er in Richtung des lAC, 
30 (b) Daten vom extemen Stack gelesen werden, dann entfemt er sich vom lAC. 

[0075] Durch Dberwachung des FC wird sichergestellt, daB lAC und EAC nicht koUidieren. 
[0076] Der ERC wird entsprechend der extemen Stackoperation (Auf- oder Abbau) modifiziert 

35 MMU 

[0077] Dem extemen Speicherinterface kann eine MMU zugeordnet werden, die zwei Funktionen erfullt: 

1. Umrechnung der intemen Adressen auf exteme Adressen zur Unterstutzung modemer Betriebsysteme 
40 2, tiberwachung der Zugriffe auf exteme Adressen, z. B. generieren eines Fehlersignales als TVigger, wenn der ex- 
teme Stack iiber- oder unterlauft 



Compiler 

45 

[0078] Das erfindungsgemaBe Programmierprinzip der VPU-lbchnologie besteht darin, sequentiellen Kode zu sepa- 
rieren und in moglichst viele kleine und unabhangige Teilalgorithmeo zu zerlegen, wahrend die Teilalgorithmen des Da- 
tenfluBcodes direkt auf die VPU abgebildet wird. 

50 Trennung zwischen VPU- und Standart-Kode 

[0079] Innerhalb einer Sprache nach den Stand der Stand der Technik reprascntativ fur alle moglichen Compiler (Pas- 
cal, Java, Fortran, etc) soil C-H- im weiteren verwendet werden, kann eine spezielle Erweitemng (VC = Vpu C) definiert 
werden, die die Sprachkonstrukte und T^P^" enthalt, die besonders gut auf eine VPU-Technologie abbildbar sind. VCs 
55 durfen vom Progranmiierer nur innerhalb von Proceduren oder Functionen verwendet werden, die keine anderen Kon- 
sUrukte oder lypen verwenden. Diese Proceduren und Functionen sind direkt auf die VPU abbildbar und laufen beson- 
ders effizient ab. Der Compiler exUrahiert die VC im Praprozessor und gibt sie direkt an das VC-Backend-Processing 
(VCBP) weiter. 

60 Extraktion des parallelisierbaren Compiler-Kodes 

[0080] Im nachsten Schritt analysiert der Compiler die restlichen C-H- Codes und extrahiert die Tfeile (MC = mappable 
C), die gut parallelisierbar und ohne den Einsatz von Sequenzem auf die VPU-Technologie abbildbar sind. Jedes ein- 
zelne MC wird in ein virtuelles Array plaziert und geroutet. Danach wird der Platzbedarf, sowie die zu erwartende Per- 
65 formance analysiert. Dazu wird das VCBP aufgemfen und die einzelnen MC werden zusammen mit den VC, die in je- 
dem Fall abgebildet werden, partitioniert. 

[0081] Die MCs, deren VPU-Implementierung den hochsten Leistungs-Zuwachs erzielen werden uberaommen, die 
restlichen werden als C-H- an die n^chste CompUerstufe weiteigereicht 
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Optimierender Sequenzer Generator 
[0082] Diese Compilerstufe ist je nacb Architektur des VPU-Systems unterschiedlich implemenderbar 

1 . VPU ohne Sequenzer und externer Prozessor 5 
[0083] Samdiche verbleibenden C++ Kodes werden fiir den extemen Prozessor compiliarL 

2. Nur VPU mil Sequenzer 

10 

2.1 Sequenzer in den PAEs 

[0084] Samdiche verbleibenden C++ Kodes werden fur die Sequenzer der PAEs compiliert. 

2.2 Konfigurierbare Sequenzer im Array 15 

[0085] Der verbleibende C++ Code wird fiir jedes unabhangige Modul analysiert. Die jeweils am besten geeignete Se- 
quenzer- Variante wird aus einer Datenbank ausgewahlt und als VC-Code (SVC) abgelegt. Dieser Schriu ist meist itera- 
tiv, d. b. eine Sequenzer- Variante wird ausgewahlt, der Code wird compiliert, analysiert und mit dem compilierten Code 
anderer Sequenzer- Varianten verglichoi. Letztlich wird der Objectcode (S VCO) des C++ Codes fiir den gewahlten SVC 20 
generiert. 

23 sowohl 2.1 als auch 2.2 werden verwendet 

[0086] Die Funkdonsweise entspricht der von 2.2. Fiir die Sequenz^ in den PAEs bestehen besondere stadsche Se^ 25 
quenzer-Modelle in der Datenbank, 

3. VPU mit Sequenzer und externa: Prozessor 

[0087] Auch diese Funkdonsweise entspricht 2.2. Fur den extemen Prozessor existieren besondere stadsche Sequen- 30 
zer-Modelle in der Datenbank. 

Linker 

[0088] Der Linker verbindet die einzetaen Module (VC, MC, SVC und SVCO) zu einem ausftihrbaren Programm. 35 
Dazu verwendet er das VCBP um die einzehien Module zu plazieren, zu routen und die zeitliche Partitionierung festzu- 
legen. Der Linker fiigt ebenfalls die Kommunikadonsstrukturen zwischen den einzelnen Modulen hinzu und fiigt gege- 
benenfalls Register und Speicher ein. Aufgrund einer Analyse der Kontrollstrukturen und Abhangigkeiten der einzelnen 
Module werden Strukturen zum Speichem der intemen Zustande des Arrays und der Sequenzer fur den Fall einer Recon- 
figuration hinzugefUgt. 40 

Bemerkungen zu den Prozessormodellen 

[0089] Die verwendeten Maschinenmodell konnen innerhalb einer VPU beliebig kombiniert werden. Auch innerhalb 
eines Algorithmus kann je nach dem, welches Modell optimal ist, zwischen den Modellen gewechselt werden. 45 
[0090] Wird einem Register-Ptozessor ein weiterer Speicher zugefugt, von dem die Operanden gelesen werden und in 
' den die Eigebnisse geschrieben werden, kann eine Load/Store-Prozessor aufgebaut werden. Dabei konnen mehrere ver- 
* schiedene Speicher zugeordnet werden, indem die einzelnen Operanden und das Eigebnis getrennt behandelt wird. 
[0091] Diese Speicher arbeiten dann quasi als Load/Store-Einheit und stellen eine Art Cache ftir den externen Speicher 
dar. Die Adressen werden durch von der Datenverarbeitung separierte PAEs berechnet. 50 

Pointer Reordering 

[0092] Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr schlecht durch Pipelines gehandhabt werden kon- 
nen. Wenn ein Pointer erst direkt vor dem Verwenden der Datensurukturen auf die er zeigt, berechnet wird, kann haufig 55 
die Pipeline nicht schnell genug gefuUt werden und die Verarbeitung wird speziell in VPUs ineffizient 
[0093] Sicherlich ist es sinnvoll bei der Programmierung von VPUs mbglichst keine Pointer zu verwenden, jedoch ist 
das oftmals nicht moglich. 

[0094] Die Losung ist, die Pointerstrukturen durch den Compiler so umzusortieren, dafi die Pointeradressen moglichst 
lange vor deren Verwendung berechnet werden. GleichzeiUg sollte es moglichst wenig direkte Abhangigkeiten zwischen 60 
einem Pointer und den Daten auf die er zeigt geben. 

Erweiterungen der PAEs (gegenuber P196 5 075.9 und P196 54 846.2) 

[0095] Durch P196 51 075.9 und P196 54 846.2 ist der Stand der Tfechnik in Bezug auf die Konfigurationseigenschaf- 65 
ten von Zellen (PAEs) definiert. 

[0096] Dabei soil auf zwei Eigenschaften eingegangen werden: 



9 



DE 100 28 397 A 1 



1. Einer PAE (0903) ist gemafi P196 51 075.9 ein Satz von KoDfiguradonsregistem (0904) zugeoidnet, der eine 
Konfiguration beinhaltel (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) Icann gemaS PI 96 54 846.2 auf einen Speicher zum Speichera oder Lesen von 
I>aten zugieifen (Fig. 9b) 

5 

[0097] Aufgabe ist es, 

a) ein Verfahren zu schaifen, das das Umkonfigurieren von PAEs beschleunigt und zeitlich von der iibetgeordneten 
Ladeeinheit entkoppelt, und 

10 b) das Verfahren so auszulegen, da6 gleichzeitig die Moglichkeit geschaffen wild iiber mehreie Konfigurationen zu 
sequenzen, und 

c) gleichzeitig mehrere Konfigurationen in einer PAE zu halten, von denen immer eine aktiviert ist und zwischen 
verschiedenen Konfigurationen schnell gewechselt werden kann. 

15 

Entkopplung der Konfiguradonsregister 

[0098] Das Konfiguradonsregister wird von der ubergeordneten Ladeeinheit (CO entkoppelt (Fig. 10), indem ein Satz 
von mehreren Konfiguradonsregistem (1001) verwendet wird. Immer genau eines der Konfiguradonsregister besdnunt 
selekdv die Funkdon der PAE. Die Auswahl des akdven Registers wird iiber einen Muidplexer (1002) durchgeflihrt In 
jedes der Konfiguradonsregister kann die CT beliebig schreiben, sofem dieses nicht die aktuelle Konfiguradon der PAE 
besdmmt, d. h. akdv ist. Das Schreiben auf das aktive Register ist prinzipiell moglich, dazu stehen die in R^CTIO be- 
schriebenen Verfahren zur Verfiigung. 

[0099] Welches Konfiguradonsregister von 1002 selektiert wird kann durch verschiedene (Juellen besdmmt werden: 

1. Ein beliebiges Status-Signal oder eine Gruppe beliebiger Status-Signale, die iiber ein Bussystem (0802) an 1002 
gefiihrt werden (Fig. 10a). Die Status-Sigoale werden dabei von beliebigen PAEs generiert oder durch externe An- 
schlusse des Bausteins zur Verfiigung gestellt (vgl. Fig. 8) 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert wird, dient zur Selekdon (Fig. 10b). 

3. Ein von der Ubergeordneten CT generiertes Signal dient zur Selekdon (Fig. 10c). 

[0100] Dabei ist es moglich wahlweise die eingehenden Signale (1003) mitteis eines Registers fiir einen besdmmten 
Zeitraum zu speichem und alt^adv und wahlweise abzurufen. 

[0101] Durch den Einsatz mehrere Register wird die CT zeitlich entkoppelt Das bedeutet, die CT kann mehrere Kon- 
figurationen "vorladen", ohne dafi eine direkte zeitliche Abhangigkeit b^teht. 

[0102] Ledigiich wenn das selekderte/akdvierte Register in 1001 noch nicht geladen ist, wird mit der Konfiguradon 
der PAE so lange gewartet, bis die CT das Register geladen hat. Um festzustellen, ob ein Register eine giildge Siforma- 
tion besitzt kann beispielsweise ein "Valid-Bit" (1004) pro Register eingefiihrt werden, das von der CT gesetzt wird. Ist 
0906 bei einem selekderten Register nicht gesetzt, wird iiber ein Signal die CT zum schnellstmoglichen Konfigurieren 
des Registers aufgefordert. 

[0103] Das in Fig. 10 beschriebene Verfahren ist einfach zu einem Sequenzer erweiterbar (Fig. 11). Dazu wird ein Se- 
quenzer mit Instruktionsdekoder (1101) zur Ansteuerung der Selekdonssignale des Multiplexers (1002) verwendet. Der 
Sequenzer besdnunt dabei abhangig von der aktuell selekderten Konfiguradon (1102) und einer zusatzlichen Statusin- 
formadon (1103/1104) die nachste zu selekderende Konfiguradon. Die die Statusinformadon kann 

(a) der Status der Status-Signal der PAE, die von 1001/1002 konfiguriert wird sein (Fig. 11a) 

(b) ein beliebiges uber 0802 zugefuhrtes Statussignal sein (Fig. 1 lb) 

(c) eine Kombinadon aus (a) und (b) sein. 

so [0104] 1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 1002 ein Befehl von 1101 adressiert wird. Die 
Adressierung ist dabei abhangig vom Befehl selbst und von einem Statusregister. Insoweit entspricht der Aufbau einer 
"von Neumann" Maschine, nut dem Unterschied, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht zu verwenden (vgl. Fig. 10) 
55 (b) daB das Statussignal nicht von dem dem Sequenzer zugeordneten Rechenwerk (PAE) generiert werden muB, 

sondem von einem beleibigen anderen Rechenweric stammen kann (vgl. Fig. lib). 

[0105] Wchdg ist, daB der Sequenzer Spriinge, insbesondere auch bedingte Spriinge, innerhalb von 1001 ausfuhren 
kann. 

60 [0106] Bin weiteres zusatzliches oder altemadves Verfahren (Fig, 12) zum Aufbau von Sequenzem innerhalb von 
VPUs ist die Verwendung der intemen Datenspeicher (1201, 0901) zum Speichem der Konfiguradonsinformadon fur 
eine PAE oder eine Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers auf einen Konfiguradonseingang 
oder Dateneingang einer PAE oder metirer PAEs geschaltet (1202). Die Adresse (1203) fiir 1201 kann dabei von dersel- 
ben PAE/denselben PAEs oder einer oder mehieren beliebigen anderen generiert werden. 

65 [0107] Bei diesem Verfahren ist der Sequenzer nicht fest implemendert, sondem wird durch eine PAE oder eine 
Gruppe von PAEs nachgebildet. Die intemen Speicher konnen Programme aus den extemen Speichem nachladen (vgl. 
erfindungsgemafies Speichersystem). 

[0108] Zur Speicherung von lokalen Daten (z. B. fiir iteradve Berechnungen und als Register ftir einen Sequenzer) 
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wild die PAE mit einem zusatzlicben Registersatz versehen, dessen einzelne Register entweder durch die Koafiguradon 
bestimmt, zur ALU gefuhit oder von der ALU beschrieben werden; oder durch den Befeblssatz eines implemenrierten 
Sequenzers frei benutzt werden konnen (Register Mode). Ebenfalls kann eines der Register als Akkumulator (Akkumu- 
lator Mode) verwendet werden. Wird die PAE als vollwertige Maschine verwendet, ist es sinnvoU eines der Register als 
Adresszahler fiir exteme Datenadressen zu verwenden. 5 
[0109] Zur Verwaltung von Stacks und Akkumulatoren aufierhalb der PAE (z. B. in den erfindungsgemafien Speichem) 
wird das bereits beschriebene RDY/ACK REQ/ACK Synchronistionsmodell verwendeL 

[0110] PAEs nach dem Stand der Technik (vgl. PACT02) sind zur Verarbeitung von bit-weisen Operationen schlecht 
geeignel, sofem die integrierte ALU bit-Operationen nicht besonders unterstiitzt, bzw. schmal (1-, 2-, 4-bit breit) ausge- 
legt ist. Die Verarbeitung von einzeinen Bits oder Signalen kann effizient gewahrleistet, indem der ALU-Kern durch ei- 10 
nen FPGA-Kem (LC) ersetzt wird, der konfigurierbar logische Operationen durchfiihrL Dear LC ist dabei in seiner Funk- 
tion und intemen Vemetzung frei konfigurierbar. Es konnen LC nach dem Stand der Technik eingesetzt werden. Fiir be- 
stimmte Operationen ist es sinnvoll dem LC intern einen Speicher zuzuordnen. Die Interface-Baugruppen zwischen FC 
und dem Bussystem des Arrays werden nur geringfiigig an den FC angepafit, bleiben aber grundlegend bestehen. Zur fle- 
xibleren Gest^tung des Zeitverhaltens des FC ist es jedoch sinnvoll, die Register in den Interface-Baugruppen abschalt- IS 
bar zu gestalten. 

Figuren 

[0111] In Fig. 4a sind einige gnindlegenden Eigenschaften des erfindungsgemafien ^^rfah^ens dargestellt: 20 
[0112] Die Module des Types A sind zu einer Gruppe zusammengefaBt und besitzen am Ende ei nen bedingten Sprung, 
entweder nach Bl oder B2. An dieser Position (0401) ist ein Umkonfigurationspunkt eingefiigt, da es sinnvoll ist die 
Zweige des bedingten Sprunges als jeweils eine Gruppe zu betrachten (Fall 1). Wurden dagegen beide Zweige von B (Bl 
und B2) zusatzlich zusammen mit A auf den Zielbaustein passen (Fall 2), ware es sinnvoll nur einen Umkonfigurations- 
punkt bei 0402 einzufugen, da dadurch die Zahl der Konfigurationen verringot wird und sich die >ferarbeilungsge- 25 
schwindigkeit erhoht Beide Zweige (Bl und B2) springen bei 0402 nach C. 

[0113] Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 4b schematisch dargestellt. Dabei werden die 
Funktionen der einzeinen Graphenknoten auf die Zellen des Zielbausteins abgebildet. Jeweils eine Zeile stellt eine Kon- 
figuration dar. Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine Umkonfiguration an. Sn ist eine datenspei- 
chemde Zelle, von beliebiger Ausgestaltung (Registei; Speicher, etc.). Dabei ist SJ ein Speicher, der Daten entgegen- 30 
nimmt und SnO ein Speicher der Daten ausgibt. Der Speicher Sn ist fiir gleiche n jeweils derselbe, I und O kennzeichnen 
die Datentransferrichtung. 

[0114] Bdde F^le des bedingten Sprunges (Fall 1, Fall 2) sind daigestellt 

[0115] Das Modell in Fig. 4 entspricht einem Datenflufimodell, jedoch mit der wesentlichen Erweiterung des Umkonr 
figurationspunkts und der damit erreichbaren Partitionierung des Graphen, wobei die zwischen den Partidonen ubeatra- 35 

genen Daten zwischengespeichert werden. 

[0116] Im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge und -Konstellation (0501) selektiv ein Graph 
Bn aus einer Menge von Graphen B aufgerufai. Nach der Ausfuhrung von B gelangen die Daten nach 0501 zuriick. 
[0117] Wird in 0501 ein ausreichend groBer Sequencer (A) implementiert, ist mit dem Modell ein den typischen Pro- 
zessoren sehr ShnUches Prinzip implementierbar. Dabei gelangen 40 

1. Daten in den Sequenzer A, die dieser als Befehle dekodiert und entsprechend dem "von Neumann"-Prinzip dar- 
auf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden und an ein fest konfiguriertes Rechenwerk C zur Be- 
rechnung weitergeleitet werden. 45 

[0118] Der Graph B stellt selektierbar ein besonderes Rechenwerke und/oder besondere Opcodes fiir bestimmte Funk- 
tionen zur Verfugung und wird altemativ zur Beschleunigung von C verwendet Beispielsweise kann Bl ein optimierter 
Algorithmus zu Berechnung von Matrixmultiplikationen sein. wahrend B2 einen FIR-Rlter und B3 eine Mustererken* 
nung darstellt. Sitsprechend eines Opcodes der von 0501 dekodiert wird, wird der geeignete bzw. entsprechende Graph 50 

B aufgerufen. 

[0119] Fig. 5b schematisiert die Abbildung auf die einzeinen Zellen, wobei in 0502 der pipelineartige Rechenwerks- 
Character symbolisiert wird. 

[0120] Wahrend in den Umkonfigurationspunkten von Fig. 4 vorzugsweise groBere Speicher zum Zwischenspeichem 
der Daten eingefiigt werden, ist eine einfache Synchronisation der Daten in den Umkonfigurationspunkten von Fig. 5 55 
ausreichend, da der Datenstrom vorzugsweise als ganzer durch den Graphen B lauft und der Graph B nicht weiter parti- 
tioniert ist; dadurch ist das Zwischenspeichem der Daten uberfiiissig. 

[0121] In Fig« 6a sind verschiedene Schleifen dargestellt Schleifen konnen grundsatziich auf drei Arten behandelt 
werden: 

60 

1. Hardware- Ansatz: Schleifen werden vollst^dig ausgewalzt auf die Zielhardware abgebildet (0601a/b). Wie be- 
reits erl^utert ist dies nur bei wenigen Schleifenarten moglich. 

2. Datenflufi-Ansatz: Innerhalb des DatenfluBes werden Schleifen iiber mehrere Zellen hinweg aufgebaut 
(0602ayb). Das Ende der Schleife wird auf den Schleifenanfang riickgekoppelt. 

3. Sequenzer-Ansatz: Bin Sequenzer mit minimalem Befeblssatz fuhrt die Schleife aus (0603a/b). Dabei sind die 65 
Zellen der Zielbausteine so ausgestaltet, dafi sie den entsprechenden Sequenzer beeinhalten (vgl. Fig. lla/b). 

[0122] Durch eine geeignete Zerlegung von Schleifen kann deren AusfQhrung ggf. optimiert werden: 
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1. Unter Verwendung von Optimieningsmethoden nach dem Stand der Tfechnik laBt sich baufig der Schleifen- 
rumpf, also der wiederholl auszufiihrende Teil, dadiirch optimieren, daB bestiramte Operationen aus der Schleife 
entfenit werden und vor oder hinter die Schleife gestellt werden (0604a/b). Dadurch wird die Menge der zu sequen- 
cenden Befehle erheblich reduziert. Die entfernten Operationen werden nur einmal vor bzw. nach Ausfuhrung der 

5 Schleife durchlaufen. 

2. Hne weitere Optimierungsmoglichkeit ist das Teilen von Schleifen in mehrere kleinere oder ktirzere Schleifen. 
Dabei findet die Teilung derart statt, dafi mehrere parallele oder mehrere sequentielle (0605a/b) Schleifen entstehen. 

[0123] Fig» 7 verdeutlicht die Implementienmg einer Rekursion. Dabei werden dieselben Ressourcen (0701) in Form 
10 von Zellen fiir jede Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden Rekursioosebene (1-3) werden beim 
Aufbau (0711:) in einen nach dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. Gleichzeidg mit dem Abbau 
(0712:) der Ebenen wird der Stack abgebaul. 

[0124] In Fig. 14 wird das Virtual-Machine-Modell dargestellt. Aus einem extemen Speicher werden Daten (1401) und 
zu den Daten gehorende Zustande (1402) in eine VPU (1403) gelesen. 

15 [0125] 1401/1402 werden uber eine von der VPU generierte Adresse 1404 selekliert. Innerhalb der VPU sind PAEs zu 
unterscbiedlichen Gruppen zusammengefaBt (1405, 1406, 1407). Jede Gruppe besitzt einen daten verarbeitenden Ttil 
(1408), der lokale impilzite Zustande (1409) besitzt, die keinen EinfluB auf die umliegenden Gruppen besitzt Daher wer- 
den dessen Zustande nicht aufierhalb der Gruppe weiteigeleitet Er kann jedoch von den extemen Zustanden abhangig 
sein. Ein weit^er Teii (1410) generiert Zustande, die EinfluB auf die umliegenden Gruppen haben. 

20 [0126] Die Daten und Zustande der Ergebnisse werden in einen weiteren Speicher (1411, 1412) abgelegt. Gleichzeidg 
kann die Adresse von Operanden (14004) als Pointer gespeichert (1413) werden. Zur zeitliche Synchronisation kann 
1404 iiber Register (1414) gefiihrt werden. 

[0127] In Fig. 14 ist zur Verdeutlichung ein einfaches Modell dargestellt. Die Vemetzung und Gruppierung kann we- 
sentlich komplexer sein als in diesem Modell. Ebenfalls konnen Zustande und Daten auch an weitere Module als den 
25 Nachfolgenden ubertragen werden. Es ist moglich, daB Daten an andere Module uberlragen werden als die Zustande. So- 
wohl Daten als auch Zustande eines bestimmten Moduls konnen von mehreren unterscbiedlichen Modulen empfangen 
werden. Innerhalb einer Gruppe kann 1408, 1409 und 1410 vorhanden sein. AbhSngig vom Algorithmus konnen auch 
einzehie Tfeile fehlen (z, B. 1410 und 1409 vorhanden, 1410 jedoch nicht). 

[0128] In Fig- 15 ist dargestellt wie aus einem Verarbeitungsgraphen Teilapplikationen extrahiert werden. Dabei wird 
30 der Graph so zerlegt, daB lange Graphen sinnvoU zerteilt werden und in Ibilapplikadonen (H, A, C, K) abgebildet wer- 
den. Nach Spriingen werden neue Teilgraphen gebildet (C, K) wobei fUr jeden Sprung ein getrennter Teilgraph gebitdet 
wird. 

[0129] Jeder Teilgraph ist in dem ULIW-Modell von der CT (vgl. PACTIO) getrennt ladbar. Wesendich ist, daB Teil- 
graphen durch die Mechanismen in PACTIO verwaltet werden kdnnen. Dazu geh5rt insbesondere das intelligente Kon- 
35 iigurieren, AusfQhren/Starten und Ix>schen der Ibilapplikationen. 

[0130] 1503 bewirkt das I^den oder Konfigurieren von Teilapplikation A, wahrend Teilapplikation K ausgefUhrt wird. 

Dadurch ist 

a) Teilapplikation A zum Ausfiihrungsende von Teilapplikation K bereits koniplett in die PAEs konfiguriert, sofem 
40 die PAEs mehrere Konfigurationsregister aufweisen; 

b) Teilapplikation A zum Ausfiihrungsende von Teilapplikation K bereits in die CT geladen, sofem die PAEs nur 
ein Konfigurationsregister aufweisen. 

[0131] 1504 startet die Ausfuhrung von Teilapplikation K. 
45 [0132] D. h. zur Laufzeit werden die nachsten benotigten Programmteile wahrend der Abarbeitung der aktuellen Pro- 
grammteile unabhangig geladen. Dadurch ergibt sich ein wesentiich efiizienterer Umgang mit den Programmcode, als 
bei iiblichen Cache-Mechanismen. 

[0133] Bei Ibilapplikationen A wird eine weitere Besonderheit dargestellt Prinzipiell ware es denkbar beide mogli- 
chen Zweige (C, K) des Vergleiches vorzukonfigurieren. Angenonunen, die Zahl der zur Verfligung stehenden freien 

50 Konfigurationsregister reicht dazu nicht aus, wird der wahrscheinlichere der Zweige konfiguriert (1506). Das spart zu- 
dem Konfigurationszeit. Bei Ausfiihning des nicht konfigurierten Zweigs, wird (da die Konfiguration noch nicht in die 
Konfigurationsregister geladen ist) die Programmausfuhrung unterbrochen, bis der Zweig konfiguriert ist. 
[0134] Grundsatzlich ist es mogUch auch nicht konfigurierte Teilapplikationen auszufuhren (1505), diese mUssen dann 
wie zuvor beschrieben vor der Ausfuhrung geladen werden. 

55 [0135] Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen ID angestoBen werden. Damit konnen Tei- 
lapplikationen abhangig vom Zustand des Arrays vorgeladen werden. 
[0136] Das ULIW-Modell unterscheidet sich im Wesentiichen vom VLIW-Modell, indem es 

1. Das Routing der Daten mit beinhaltet 
60 2. GroBere Instruktionswdrter bildet 

[0137] Ebenfalls kann das beschriebene Verfahren der Partitionierung von Compilem fiir heutige Standardprozessoren 
nach dem RISC/QSC-Prinzip ebenso eingesetzt werden. Wird dann eine Einheit (CT) nach PACTIO zur Steuerung des 
Befehls-Caches verwendet, kann dieser erhebhch optimiert und beschleunigt werden. 
65 [0138] Dazu werden "normale" Programme entsprechend in Ttilapplikationen partitioniert. GemaB PACTIO werden 
Verweise auf mogliche nachfolgende Teilapplikationen eingefuhrt (1501, 1502). Dadurch kann eine CT die Teilapplika- 
tionen bereits in den Cache vorladen bevor sie benotigt werden. Bei Spriingen wird nur die angesprungen Ibilapplikation 
ausgefiihrt, die andere (n) werden spiter durch neue Ibilapplikationen tiberschrieben. Neben dem inteUigenten \^rladen 
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hat das Verfahren den weiteren Vorteil, dafi die GroBe der Teilapplikationen beim Laden bereits bekannt ist. Daduich 
konnen optimale Bursts beim ZugrifF auf die Speicher von derCT ausgefiihrt werden, was den Speicherzugriflf wiedenim 
erheblich beschleunigL 

[0139] Fig. 16 zeigt den Aufbau eines Siack-Prozessors. Durch das PAE- Array (1601) v/erd&i Protokolle gencriert um 
auf einen als UFO konfigurierten Speicher (1602) zu schreiben odcr zu lesen. Dabei wird ein RDY/ACK-ProtokoU zum 5 
Schreiben und REQ/ACK-Protokoil zum Lesen verwendet Die Vemetzung und Beiriebsmodi werden von der CT (1603) 
konfiguriert. 1602 kann dabei seinen Inhalt auf den extemen Speich^ (1604) auslagem. 

[0140] Eine Reihe der PAEs soUen in diesem Beispiel als Regisier-Prozessor arbeiten (Fig. 17). Jede PAE besteht aus 

einem Rechenwerk (1701) und einem Akkumuiator (1702) auf den das Ergebnis von 1701 riickgekoppeit (1703) isL Da- 

mit slellt in diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. Eine PAE (1705) Uest und schreibt die Daten in 10 

den als Standardspeicher konfigurierten RAM (1704). Eine weitere PAE (1706) generiert die Registeradressen. 

[0141] Oftmals ist es sinnvoll eine getrennt PAE zum Lesen der Daten zu verwenden, Dann wtirde 1705 nur schreiben 

und die PAE 1707 lesen. Dabei wird eine weitere PAE (1708, gestrichelt unterlegt) zum Generieren der Leseadressen ein- 

zufiihren. 

[0142] Es ist nicht zwingend notwendig getrennte PAEs zum Generieren der Adressen zu verwendet. Oftmals sind die 15 
Register implizit und kdnnen dann als Konstanten konfiguriert werden von den datenverarbeitenden PAEs gesendet wer- 
den. 

[0143] Die Verwendung von Akkumulator-Prozessoren for einen Register-Ptozessor ist beispiekhaft. Ebenso konnen 
zum Aufbau von Registerprozessorcn PAEs ohne Akkumuiator verwendet werden. Die in Fig. 17 gezeigte Architektur 
kann zur Ansleuerung von Registern als auch zum Ansteuem ciner Load/Store-Einheit dienen. 20 
[0144] Bei der Verwendung als Load/Store-Einheit ist es fast zwingend notwendig einen extemen RAM (1709) nach- 
zuschalten, sodafi 1704 nur einen temporaren Ausschnitt aus 1709, quasi als Cache, darstellt. 

[0145] Auch bei der Verwendung von 1704 als Register-Bank ist es teilweise sinnvoll einen extemen Speicher nach- 
zuschalten. Dadurch konnen PUSH/POP Operationen nach dem Stand der Technik durchgefuhrt werden, die den Regi- 
sterinhait in einen Speicher schreiben oder aus diesem Lesen. 25 
[0146] In Fig. 18 ist als Beispiel eine komplexe Maschine abgebildet bei der das PAE- Array (1801) einerseils einen 
Load/Store-Einheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und gleichzeitig eine Register-Bank (1804) mit 
nachgeschaltetem RAM (1805) aufweist 1802 und 1804 konnen jeweils von einer PAE oder einer beliebigen Gruppe 
von PAEs angesteuert werden. Die Einheit wird gemaB dem VPU-Prinzip von einer CT (1806) gesteuert 
[0147] Wichtig ist, dafi zwischen der Load/Store-Einheit (1802) und der Register-Bank (1804) und deren Ansteuerung 30 
kein wesentlich^ Unterschied besteht 

[0148] Die Fig. 19, 20, 21 zeigen einen erfindungsgemafien intemen Speicher, der zugleich eine Kommunikationsein- 

heit mit extemen Speichem und/oda: Peripherie darstellL Die einzelnen Figuren zeigen untarschiedliche Betriebsarten 

desselben Speichers. Die Betriebsarten, sowie einzelne Detaileinstellungen werden dabei konfiguriert. 

[0149] Fig. 1 9a zeigt einen erfindungsgemafien Speicher im "Register/Cache" Modus. Im erfindungsgemafien Speicher 35 

(1901) sind Datenworte eines fur gewohnlich groBeren und langsameren extemen Speichers (1902) abgelegt 

[0150] Der Datenaustausch zwischen 1901, 1902 und den uber einen Bus (1903) angeschlossenen PAEs (nicht darge- 

stellt) findet dabei wie folgt statt, wobei unter zwei Betriebsarten unterschieden wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 gelesenen oder gesendeten Daten werden in 1901 mittels eines 40 
Cache- Verfahrens gepuffert. Dabei kann jedes bekannte Cache- Verfahren zum Einsatz kommen. 

B) Mittels einer Load/Store-Einheit werden die Daten bestimmter Adressen zwischen 1902 und 1901 ubertragen. 
Dabei werden bestimmte Adressen, sowohl in 1902 als auch in 1901 vorgegeben, wobei fiir 1902 und 1901 gewohn- 
licherweise unterschiedliche Adressen verwendet werden. Die einzelnen Adressen konnen dabei durch Konstante 
Oder durch Berechnungen in PAEs erzeugt werden. In dieser Betriebsart arbeitet der Speicher 1901 als Register- 45 
bank. 

[0151] Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei beliebig sein und hangt ledigUch von den je- 
weihgen Algorithmen der beiden Betriebsarten ab. 

[0152] In 19b ist die entsprechende Maschine als Blockdiagramm dargestellt. Dem Bus zwischen 1901 und 1902 ist 50 

eine Steuereinheit (1904) zugeordnet, die je nach Beuiebsart als Load/Store-Einheit (nach dem Stand der Technik) oder 
als Cache-KonUroUer (nach den Stand der Technik) agiert. Dieser Einheit kann bei Bedarf eine Speicherverwaltungsein- 
heit (MMU) (1905) mit Adressubersetzung und -iiberpriifung zugeordnet werden. Sowohl 1904 als auch 1905 kann von 
den PAEs angesteuert werden. So wird beispielsweise die MMU programmiert, die Load/Store Adressen gesetzt oder ein 
Cache-Rush ausgelost. 55 
. [0153] Fig. 20 zeigt den Einsatz des Speichers (2001) im FIFOModus, in welchem nach dem bekannten FIFO-Prinzip 
Datenstrome entkoppelt werden. Der typische Einsatz ist in einem SchrEib-(2001a) oder Leseinterface (2001b). Dabei 
werden Daten zwischen den PAEs, die an dem intemen Bussystem (2002) angeschiossen sind und dem Peripheriebus 
(2003) zeitlich entkoppelt 

[0154] Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, die den Schreib- und Lesezeiger des FIFOs abhan- 60 
gig von den Busoperationen von 2003 und 2002 steuert 

[0155] In Fig. 21 ist das Arbeitsprinzip der erfindungsgemafien Speicher im Stack-Modus daigestellt. Hn Stack ist 
(nach dem Stand der Technik) ein Stapelspeicher, dessen oberstes/unterstes Element das gerade Aklive isL Daten werden 
inmier oben/unten angefiigt, ebenso werden die Daten oben/unten entfemt. D. h. das zuletzt geschriebene Datum ist auch 
das, welches zuerst gelesen wird (Last In First Out). Ob ein Stack nach oben oder unten wachst, ist unbedeutend und im- 65 
plementierungsabhangig. Im folgenden Ausfiihrungsbeispiel werden Stacks betrachtet, die nach oben wachsen. 
[0156] Dabei sind die aktuellsten Daten im intemen Speicher 2101 gehalten, der aktuellste Eintrag (2107) befindet sich 
ganz oben in 2101. Alte Eintrage sind auf den extemen Speicher 2102 ausgelagert. Wachst der Stack welter, reicht der 
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Plalz im internen Speicher 2101 nicht mehr aus. Bei Erreichen einer bestimmten Datemnenge, die durch eine (frei wahl- 
bare) Adresse in 2101 oder einen (frei wahlbaren) Wert in einem Eintragszahler reprasentiert sein kann, wird ein Teil von 
2101 als Block an das aktuellere Ende (2103) des Stacks in 2102 geschrieben. Dieser Teil sind die altesten und somit am 
wenigsten aktuellen Daten (2104). Danacb weiden die verbleibenden Daten in 2101 so verschoben, daB die nach 2102 
5 kopierten Daten in 2101 mit den verbleibenden Daten (2105) iiberschrieben werden und somit genugend freier Speicher 
(2106) fiir neue Stadceintrage entsteht 

[0157] Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) Punkt die Daten in 2101 so verschoben, daB 
hinter den altesten und unaktuellsten Daten freier Speicher entsteht In den freigewordenen Speicher wird ein Speicher- 
block aus 2102 kopiert, der dann in 2102 geloscht wird. 

10 [0158] Mil anderen Worten reprasentieren 2101 und 2102 einen einzigen Stack, wobei die gerade aktuellen EinUrage in 
2101 liegen und die alteren und weniger aktuellen in 2102 ausgelagert sind. Quasi stellt das Verfahren einen Cache fiir 
Stacks dar. Da die Datenblocke vorzugsweise per Blockoperationen ubertragen werden, kann der Datentransfer zwischen 
2101 und 2102 in den schnellen Burst-BeUiebsarten modemer Speicher (SDRAM, RAMBUS, etc.) ausgefiihrt werden. 
[0159] Es soli nochmals erwahnt werden, daB Lm Ausfuhrungsbeispiel in Fig, 21 der Stack nach oben wachst. Sollte 

15 der Stack nach unten wachsen (eine haufig verwendete Methode), sind die Positionen oben/unten und die Richlungen in 
die die Daten innerhalb eines Speichers bewegt werden genau vertauscht. 

[0160] Sinnvollerweise wird der interne Stack 2101 als eine Art Ringspeicher ausgestaltet Die Daten an einem Ende 
des Ringes werden zwischen PAEs und 2101 ubertragen und am anderen Ende des Ringes zwischen 2101 und 2102. Da- 
duich entsteht der Vorteii, dafi einfach Daten zwischen 2010 und 2102 verschoben werden kdimen, ohne Einfiufi auf die 

20 internen Adressen in 2101 zu haben. Lediglich die Positionszeiger der unteren und oberen Daten und der FiillstandszSh- 
ler mussen jeweils ange|>aBt werden. Die DatenUbertragung zwischen 2101 und 2102 kann durch die bekannten Ring- 
speicher-Flags "beinahe voU (almost full)/ vol! (full)" und "beinahe leer (almost empty)Aeer (empty)" ausgelost werden. 
[0161] Die notwendige Hardware ist als Blockschaltbild in Fig. 2 lb dargestellL Dem internen Stack 2101 ist eine Ein- 
heit (2110) zur Verwaltung der Zeiger und Zahler zugeordneL In den Bus (2114) zwischen 2101 und 2102 ist eine Einheit 

25 (2111) zur Steuerung der Datentransfers eingeschleift. Dieser Einheit kann eine MMU (2112) nach dem Stand der Tfech- 
nik mit den entsprechenden Priifsystemen und Adressiibersetzungen zugeordnet werden. 
[0162] Die Verbindung zwischen den PAEs und 2101 wird uber das Bussystem 2113 realisiert. 
[0163] In Fig. 22 ist ein Beispiel fiir das Umsortieren von Graphen gezeigt. Die linke Spalte (22. .a) zeigt eine unopti- 
mierte Anordnung von Befehlen. Dabei werden die Pointer A (2207a) und B (2211a) geladen. Jeweils bereits einen Takt 

30 spater werden die Werte der Pointer benotigt (2208a, 2212a). Diese Abhangigkeit ist zu kurz um eflizient ausgefiihrt zu 
werden, da zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) benotigt wird. Durch umsortieren der Be- 
fehle (22. .b) werden die Zeitraume maximal vei^groBert (2220b, 2221b). Obwohl in 2210 und in 2208 der Wert des Poin- 
ters von A benotigt wird, wird 2208 nach 2210 einsorti^ da dadurch mehr Zeit zur Berechnung von B gewonnen wird. 
Es ist moglich Berechnungen die von den Pointem unabh^gig sind (2203, 2204, 2206) beispielsweise zwischen 2211 

35 und 2212 einzufiigen um mehr Zeit fiir die Speicherzugriffe zu erfaalten. Hn Compiler oder Assembler kann hier anhand 
von Systemparametem, die die Zugrififzeiten reprasentieren, die entsprechende Optimierung vomehmen. 
[0164] Fig. 23 zeigt einen SonderfaU der Fig. 4-7. Haufig besteht ein Algorithmus, auch innerhalb von Schleifen, aus 
Datenflufiteilen und sequentiellen Teilen. Derartige Strukturen konnen geraaB dem beschriebenen Verfahren unter Ein- 
satz des in PACT07 beschriebenen Bussystems effizient aufgebaut werden. Hierzu wird das RDY/ACK-Protokoll des 

40 Bussystems zunachst um das erfindungsgemaBe REQ/ACK-Protokoll erweitert. Dadurch konnen gezielt Registerinhalte 
einzelner PAEs von einer oder mehreren anderen PAEs oder von der CT abgefragt werden. Eine Schleife (2305) wird nun 
in mindestens zwei Graphen zerlegt, einen ersten (2301), der den DatenfluBanteil reprSsentiert und einen zweiten (2302), 
der den sequentiellen Anteil abbildet. 

[0165] Ein bedingter Sprung wahlt zwischen den beiden Graphen. Das besondere ist nun, daB 2302 den internen Zu- 
45 stand von 2301 kennen zur Ausfuhrung benotigt und umgekehrt 2301 den Zustand von 2302 kennen muB. 

[0166] Dies wird realisiert, indem der Zustand genau einmal, namlich in den Registem der PAEs des performanteren 
DatenfluBgraphen (2301) gespeichert wird. 

[0167] Wird in 2302 gesprungen, liest d^ Sequenzer bei Bedarf die Zust^de der jeweiligen Register mittels des Bus- 
systems aus PACT07 aus (2303). Der Sequenzer fuhrt seine Operationen aus und schreibt alle geanderten Zustande in die 

50 Register (wiederum iiber das Bussystem nach PACT07) zuruck (2304). AbschlieBend soli angemerkt werden, daB es sich 
bei den besprochenen Graphen nicht unbedingt um enge Schleifen (2305) handeln muB. Das Verfahren ist generell auf je- 
den Teilalgorithmus verwendbar, der innerhalb eines Programmablaufes mehrfach ausgefiihrt wird (reentrant) und wahl- 
weise entweder sequentiell oder parallel (datenfluBartig) abgearbeitet wild, wobei die Zust^de zwischen dem sequen- 
tiellen und dem parallelen Teil transferiert werden mussen. 

55 [0168] Die Waverekonfigurierung bietet erhebliche Vorteile bei der Geschwindigkeit der Umkonfiguration, insbeson- 
dere bei einfachen sequentiellen Operationen. 

[0169] Eine grundlegende Besonderheit dieser Verarbeitungsmethode ist, daB der Sequenzer auch als extemen Mikro- 
prozessor ausgestaltet sein kann. Das bedeutet, daB ein Prozessor liber die Datenkanale mit dem Array verbunden ist und 
lokale, temporare Daten iiber Bussysteme mit dem Array austauscht. Samdiche sequentielle Ibile eines Algorithmus die 
60 nicht in das Array aus PAEs abgebildet werden konnen werden auf dem Prozessor abgewickelt 
[0170] Es muB zwischen drei Bussystemem unterschieden werden: 

1. Datenbus, der den Austausch der verarbeiteden Daten zwischen VPU und Prozessor regelt. 

2. Registerbus, der den Zugriff auf die Register der VPU ^rmoglicht und den somit den Datenaustausch (2302, 
65 2304) zwischen 2302 und 2301 gewahrleistet. 

3. Konfigurationsdatenbus, der das Array der VPU konfiguriert. 

[0171] In Fig. 24 sind die Auswirkungen zeitlich daigestellt. 
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[0172] Einfach schraffierte Flachen stellen datenverarbeitende PAEs dar, wobei 2401 PAEs nach der Umkonfiguration 
und 2403 PAEs vor der Umkonfiguration zeigen. Doppelt schraffierte Fla:hen (2402) zeigen PAEs die gerade umkonfi- 
guriert werden oder auf die Umkonfiguration waiten. 

[0173] Fig, 24a zeigt den EinfluB der Wave-Rekonfigurierung auf einen einfachen sequentielien Algorithmus. Hier ist 
es mdgltche exakt die PAEs umzukonfigurieren, denen cine neue Aufgabe zugeteilt wird. Da in jedem Ibkl cine PAE cine 5 
neue Aufgabe eifaalt kami dies effizient, nSmlich zeitgleich duichgefuhrt werden. 

[0174] Beispielsweise dargestellt ist eine Reihe von PAEs aus der Matrix aller PAEs einer VPU. Angegeben sind die 
Zustande in den Takten nach Tto t mit jeweils einem Tto Verzogerung. 

[0175] In Fig. 24b ist die zeitliche Aus wirkung der Umkonfiguration von groBen Tbilen dargestellt Beispielsweise dar- 
gestellt ist eine Menge von PAEs einer VPU. Angegeben sind die Zustande in den Tkkten nach Takt t mit einer unter- lO 
schiedlichen Verzogerung von jeweils mehreren Takten. 

[0176] Wahrend zunachst nur ein kleiner Teil der PAEs umkonfiguriert wird oder auf die Umkonfiguration wartet, wird 
diese Rache mit zunehmender Zeit groBer, bis alle PAEs umkonfiguriert sind. Das groBer werden der Flache bedeutet, 
daB, bedingt durch die zeitliche Verzogerung der Umkonfiguration iramer mehr PAEs auf die Umkonfiguration warten 
(2402). Dadurch geht Rechenleistung verlorra. 15 
[0177] Es wird daher vorgeschlagen ein breitercs Bussystem zwischen der CT (insbesondere des Speichers der CT) 
und den PAEs einzusetzen, das geniigend Leitungen zur Verfiigung stellt, um innerhalb eines Taktes mehrere PAEs zu- 
gleich umzukonfigurieren. 

[0178] Fig. 25 vordeutlicht die Skalierbarkeit der VPU-lfechnologie. Die Skalierbarkeit geht im Wesentlichen aus dem 
AusroUen eines Graphens hervor, ohne daB eine zeitliche Abfolge einzelne Teilapplikationen ttennt. Als Beispiel ist der 20 
Algorithmus aus Fig. 4 gewahlt. In Fig. 25a werdwi die einzelnen Teilgraphen zeitlich nacbeinander auf die VPU Qber- 
tragen, wobei entweder Bl oder B2 geladen wird. In Fig. 25b werden alle Teilgraphen auf eine Menge von VPUs iiber- 
tragen und mit Bussystemen untereinander verbunden. Daduich kdnnen groBe Datenmengen ohne den negativen EinfluB 
des Umkonfigurierens leistungsfahig abgearbeitet werden. 

[0179] Fig. 26 zeigt eine Schaltung zur Beschleunigung der (Um-) konfigurationszeit von PAEs. Gleichzeitig kann die 25 
Schaltung zur Verarbeitung von sequentielien Algorithmen verwendet werden. Das Array von PAEs (2605) ist in meh- 
rere Teile (2603) partitioniert. Jedem Teil ist eine eigenstandige Einheit zur (Um-)konfiguration (2602) zugeordnet Die- 
sen Einheiten iibergeordnet ist eine CT (2601) nach dem Stand der Technik (vgl. PACTIO), die wiederum an dne weitere 
CT Oder an einen Speicher angeschlossen ist (2604). Die CT lad die Algoridimen in die Konfigurationseinheiten (2602). 
Die 2602 laden selbstandig die Konfiguradonsdaten in die ihnen zugeordneten PAEs. 30 
[0180] In Fig, 27 ist ein Aufbau einer Konfigurationseinheit dargestellt Kern der Einheit ist ein Sequenzer (2701) der 
eine Reihe von Befehlen beherrscht. 
[0181] Die wesentlichen Befehle sind: 

wait <trg#> Warten auf das Eintreffen eines bestimmten TViggers aus dem Array, der angibt, welche nachste Konfigura- 
tion geladen werden soil. 35 
lookup <trg#> Gibt die Adresse des durch einen eintreffenden Trigger aufgerufenen Unterprogramms zurOck. 

jmp <adr> Sprung nach Adresse 

call <adr> Sprung nach Adresse. Riicksprungadresse wird auf dem Stack gespeichert 
jmp <cond> <adr> Bedingter Sprung nach Adresse 

call <cond> <adr> Bedingter Sprung nach Adresse. Rucksprungadresse wird auf dem Stack gespeichert 40 
ret Rucksprung auf die auf dem Stack gespeicherte Riicksprungadresse 

mov <target> <source> Ubertragt ein Datenwort von Quelle (source) an ein Ziel (target). (Quelle und Ziel konnen jeweils 
in einem Speicher oder eine Peripherieadresse sein. 

[0182] Im wesentlichen sind die Befehle aus PACTIO, d. h. der Beschreibung der CT bekannt. Wesentlicher Unter- 
schied in der Implementierung der 2602 ist, daB nur sehr einfache Befehle zur Datenverwaltung verwendet werden und 45 
kein voUstandiger Mikrokontroller verwendet wird. 

[0183] Eine bedeutende Erweiterung des Befehlssatzes ist der "pabm'-Befehi zum Konfigurieren der PAEs. Es stehen 
zwei Befehle (pabmr, pabmm) zur Verfiigung, die folgendermassen aufgebaut sind: 

50 
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[0184] Die Befehle kopieren einen zugeordneten BlcKk von PAE-Adressen und PAE-Daten vom Speicher zu dem 
PAE- Array. Durch <count> ist angegeben, wie groB der zu kopierende Datenblock ist. Der Datenblock ist entweder di- 
45 rekt an den Opccxle angehangt (a) oder durch Angabe der erste Speicheradiesse <meniref> referenziert (b). 

[0185] Jede pa_adrn-pa_dtan-Zeile stellt eine Konfiguration fiir eine PAE dar. Dabei gibt pa„adr„, die Adresse und 
pa.dtaQ das Konfiguradonswort der PAE an. 

[0186] Aus PACTIO ist das RDY/ACK-REJ Protokoll bekannt. Werden die Konfigurationsdaten von einer PAE ange- 
nonunen, quittiert die PAE die gesendeten Daten mil einem ACK. Kann dagegen eine PAE die Konfigurationsdaten nicht 
SO annehmen, da sie sich nicht in einem umkonfigurierbaren Zustand befindet, sendet sie ein REJ zuriick. Dadurch schlSgt 
.die Konfiguration des Teilalgorithmus fehl. 

[0187] Die S telle mit REJ zuriickgewiesenen pa_adrn-pa_dtan-Zeile wird gespeichert. Die Befehle werden zu einem 
spateren 2^itpunkt emeut aufgerufen (vgl. PACTIO, FILMO). Sofem der Befehl komplett abgearbeitet wurde, d. h. es 
trat kein REJ auf, fiihrt der Befehl keine weitere Konfiguration durch sondem terminiert sofort. Trat ein REJ auf, springt 
55 der Befehl direkt an die Stelle der zuriickgewiesenen pa_adrn-pa_dtao-Zeile. Je nach Befehl wird die Stelle unterschied- 
iich gespeichert: 

pabmr: Die Adresse wird in dem mit <regno> genannten Register gespeichert. 
pabnun: Die Adresse wird direkt im Befehl an der Speicherstelle <offsel> gepeichert. 

[0188] Die Befehle sind durch DMA-Slrukturen als Speicher/rO-TVansfers nach dem Stand der Technik implementier- 
60 bar. Die DMAs werden durch eine Logik zum Uberwachen der eingehenden ACK/REJ erweitert Die Startadresse wird 
durch <regno>, bzw. <offi5et> bestimmt. Die letzte Adresse des Datenblocks wird durch die Adresse des Befehls plus 
dessen Opcode-Lange minus eins plus die Anzahl der pa_adrn-pa_dtaQ-Zeilen berechnet. 
[0189] Es ist sinnvoll auch die in PACTIO beschriebene Schaltung durch die genannten Befehle zu erweitem. 
[0190] Fig. 27 zeigl den Aufbau einer Einheit 2602. Die Einheit besteht aus einem Registersatz 2701 dem eine einfache 
65 ALU fiir Stackoperationen zugeordnet ist (2702). Die Struktur enthalt Adressregister und Stackpointer. Optional kann 
eine vollwertige ALU eingesetzt werden. Ein Bussystem (2703) mit minimaler Breite verbindet Register und ALU. Die 
Breite ist dabei so bemessoi, daB einfache KontroUfluBbefehle bzw. einfache ALU-Operationen sinnvoll dargestellt wer- 
den konnen. ZusSLtzlich werden die vorab beschriebenen PABM-Befehle, sowie die Befehle nach PACTIO unterstiitzt 



16 



DE 100 28 397 A 1 

Register und ALU werden von einem Sequenzer 2706 gesteuert, der durch Ausfuhrung von Befehlen einen vollstandigen 
Microcontroller darstellL An 2703 ist eine Einheit 2704 angescblossen, die Trigger von den zugeordneten PAEs entge- 
gennimmt und quittiert und gegebenenfalls ihrerseits Trigger an die PAEs sendet. 

[0191] Eingehende TVigger iosen dabei in dem Sequenzo- 2706 einen Interrupt aus oder werden durch den WATF-Bc- 
fehl abgefragt Optional an 2703 angescblossen ist ein Interface (2705) zu einem Datenbus der zugeordneten PAEs um 5 
Daten an die PAEs senden zu konnen. Beispielsweise werden die Assemblercodes eines in den PAEs implementiertai 
Sequenzeis Qber 2705 gesendet. Das Interface entbalt sofeni erforderlicb einen Konverter zur Anpassung der unter- 
schiedlichen Busbieiten. Die Einheiten 2701 bis 2706 sind uber einen Muldplexei/Demultiplexer (2707) an ein um ein 
Vielfaches breiteies Bussystem (2708) angescblossen, das zum Speicber (2709) f^hrt. 2707 wird von den niederwertigen 
Adressen des Adress-ZSiackregisters angesteuert, die hoherwertigen Adressen fuhren direkt zum RAM (2711). Das Bus- 10 
system 2708 fxihrt zu einem Interface (2709), das durch die PA-Befehle gesteuert wird und zum Konfigurationsbus der 
PAEs fuhn. 2708 ist bewuBt breit ausgelegt um moglichst viele Konfigurationsbits pro 'Mteinheit uber 2709 an die PAEs 
senden zu konnen. Ein weiteres Interface (2710) verbindet den Bus mit einer ubetgeordneten CT, die Konfigurations- 
und Steuerdaten mit 2602 austauschL Die Interface 2710 und 2709 beieits mehrfacb in PACTIO, PACT?? beschrieben 
worden. 15 
[0192] Wesendich ist, daB 2706 einen rcduzierten und auf die Aufgabe optimierten Minimalsbefehissatz beherrscht, 
der vat allem auf die PA-Kommandos, Spriinge, Interrupts und Lxx)kup-Befehle optimiert ist Weiterhin ist das opd- 
mierte bieite Bussystem 2708, das iiber 2707 auf ein schmales Bussystem ubertragen wird von besonderer Bedeutung fiir 
die Umkonfiguradonsgeschwindigkeit der Einheit 

[0193] Fig. 27a ist eine spezielle Ausgestaltung von Fig. 27. Das Interface 2705 dient der Dbertragung von Assemb- 20 
lercodes an im PAE- Array konfigurierte Sequenzer. Die Verarbeitungsleistung der Sequenz^ hSngt wesentlich von der 
Geschwindigkeit des Interfaces 2705 und dessen Speicherzugrilfes ab. In Fig. 27a ist 2705 durch eine DMA-Funkdon 
mit direktem SpeicherzugrifiF(2720n) ersctzt, 2720n fuhrt eigene SpeicherzugrifFe aus und besitzt ein eigenes Bussystem 
(2722n) mit entsprechender Anpassung der Busbreite (2721o); dabei kann der Bus zum Laden von bceiten Befehlsse- 
quenzen (ULIW) verhaltnismaBig breit ausfallen, sodafi als Grenzfail 2721n komplett entfallt Zur weiteren Steigerung 25 
der Geschwindigkeit ist der Speicber 2711 physikalisch in 2711a und 2711bn getrennt worden. Der Adressraum uber 
2711a und 2711bn verbleibt linear, jedoch kann von 2701, 2702, 2706 auf beide Speicherblocke unabhangig gleichzeitig 
zugegriffen werden; 2720n kann nur auf 2711bn zugreifen, 2720n, 2721n, und 2711bn kann mehrfacb (J implementiert 
sein, damit mehrere Sequenzer gleichzeiug verwaltet werden konnen. Dazu kann 2711bn nochmal in mehrere physika- 
lisch unabhangige Speicherbereiche unterteilt werden. In Fig. 38 ist sind Implemenderungsbeispiele fur 2720n beschrie- 30 
ben. 

[0194] In Fig. 28 wird der Aufbau von komplexen Programmen verdeutlicht Die Basismodule der Programme sind die • 
Komplex-Konfigurationen (2801) die die Konfigurationen einer oder mehrere PAEs und der dazugehorenden Bus- und 
Triggerkonfiguralionen beinhalten. Die 2801 werden durch einen Opcode (2802) reprasentiert, d&c zusatzliche Parameter -: 
(2803) besitzen kann. Diese Parameter kdnnen einerseits konstante Datenwerte, variable Startwerte oder auch spezielle 3S 
Konfigurationen beinhalten. Es existieren je nach Funktion ein, mehrere oder auch kdn Parameten 
[0195] Mehrere Opcodes greifen auf einen gemeinsamen Satz von Komplex-Konfiguradonen zuruck und bilden damit 
eine Opcode-Gruppe (2805), Die unterschiedlichen Opcodes einer Gruppe unterscheiden sich durch besondere Ausge^ 
staltungen der Komplex-Konfigurationen. Dazu werden Differenzierungen (2807) verwendet, die entweder zusatzliche 
Konfiguradonsworte enthalten, oder in 2801 vorkomraende Konfigurationsworte uberschreiben. 40 
[0196] Eine Komplex-Konfiguradon wird, sofem keine Differenzierung erforderlicb ist, direkt von einem Opcode auf- 
gerufen (2806). Ein Ptogramm (2804) setzt sich aus einer Abfolge von Opcodes mit den jeweiligen Parametem zusam- 
men. 

[0197] Eine komplexe Funkdon kann einmal in das Array geladen werden und kann danach durch unterschiedliche Pa- 
rameter Oder Differenzierungen neu umkonfiguriert werden. Dabei werden nur die sich andemden Tfeile der Konfigura- 45 
tion umkonfiguriert. Unterschiedliche Opcode-Gruppen greifen auf unterschiedliche Komplex-Konfigurationen zuriick. 
(2805a,... ,2805n). 

[0198] Die unt«rschiedlichen Ebcnen (Komplex-Konfiguradon, Differenzierung, Opcode, Programm) werden in ver- 
schiedenen Ebenen von CR abgearbeitet (vgL CT Hierarchien in PACTIO). Die unterschiedlichen Ebenen sind in 2810 
dargestellt, wobei 1 die niederste und N die hochste Ebene darstellt CR konnen zu beliebig tiefen Hierarchien aufgebaut 50 
werden (vgl. PACTIO). 

[0199] Es wird in 2801 unter zwei Arten von Codes unterschieden: 

1 . Konfiguradonsworte, die einen Algorithmus auf das Array aus PAEs abbiiden. Der Algorithmus kann dabei auch 

als Sequenzer ausgestaltet sein. Die Konfiguration erfolgt uber die Schnittstclle 2709. Konfigurationsworte werdra 55 
durch die Hardware definiert. 

2. Aigorithmusspezifische Codes, die von der moglichen Ausgestaltung eines Sequenzer oder Algorithmus abhan- 
gig sind. Diese Codes werden vom Programmierer oder Compiler definiert und dienen zur Ansteuerung eines Algo- 
rithmus. Ist beispielsweise ein Z80 als Sequenzer in die PAEs konfiguriert, stellen diese Codes den Opcode des 2^ 
Mikroprozessors dar. Aigorithmusspezifische Codes werden uber 2705 an das Array aus PAEs gesendet, 60 

[0200] In Fig. 29 ist ein moglicher Grundaufbau einer PAE dargestellt. 2901 bzw. 2902 stellen die Eingangs- bzw. Aus- 
gangsregister der Daten dar. Den Registem zugeordnet ist die komplette Vonelzungslogik rum Aufschalten auf den/die 
Datenbusse (2920, 2921) des Arrays (vgl PACTO2). Die TViggerleitungen genu PACTOS werden durch 2903 vom Tdg- 
gerbus (2922) abgegriffen und mit 2904 auf den TViggerbus (2923) aufgeschaltet. Zwischen 2901 und 2902 ist eine ALU 65 
(2905) beliebiger Ausgestaltung geschaltet. Den Datenbussen (2906, 2907) und der ALU zugeordnet ist ein Registersatz 
(2915), in welchem lokale Daten gespeichert werden. Die RDY/ACK-Syncronisationssignale der Datenbusse und THg- 
gerbusse werden zu einer Statemachine (oder einem Sequenzer) (2910) gefdhrt (2908), bzw. von der Einheit generiert 
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(2909). 

[0201] Ober eine Interfaceeinheit (2911) greift die CT mittels eines Bussystemes (2912) selektiv auf eine Mehrzahl 
von Konfiguialionsregisteni (2913) zu. 2910 wahll uber einen Multiplexer (2914) jeweils eine besdmmte Konfiguration 
aus, Oder sequenzt uber eine Mehrzahl von Konfigurationsworten, die dann Befehie fur den Sequenzer darstellen. 
S [0202] Da die VPU-Technologie hauptsachlich gepipelinet arbcitet ist es von X^rteil entweder die Gruppe 2901 und 
2903 Oder die Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs zu veisehen. Dadurch kann verhindert 
werden, daB eine Pipeline durcb einfache Verzogerungen (z. B. in der Synchronisation) stockt. 

[0203] 2920 ist ein optionaler Buszugang, uber den ein der Speicher einer CT (siehe Fig, 27, 2720) oder ein gewohni- 
cher intemer Speicher an S telle der Konfigurationsregisier an den Sequenzer 2910 geschaltet werden kann. Damit sind 
10 groBe sequentielle Programme in eina PAE ausfiihibar. Der Multiplexer 2914 wird dazu so geschaltet, daB er nur den in- 
temen Speicher verbindet 
[0204] Die Adressen werden 

a) fiir den CT-Speicher durch die Schaltung in Figur. 38 generiert. 
IS b) ftir den intemen Speicher diiekt voD 2910 generiert 

[0205] Fig. 30 zeigt eine mogliche Erweiterung der PAE urn der CT oder einem anderen zuegschalteten Mikroprozes- 
sor einen Zugriff auf die Datenregist^ zu ermoglichen. Der Adressraum und die Int^ace der Buseinheit (vormals2911, 
3003) werden um die zusatzlichen Datenbusse (3001) erweitert Den jeweiligen Registem wird ein Multiplexer (3002) 
20 vorgeschaltet mittles dem 3003 iibcr den Bus 3001 Daten in das Register schreiben kann. Die Ausgange der Register 
werden uber 3001 zuriick an 3003 gefuhit 3003 ubertragt die Daten zur CT 2912. 

[0206] Altemativ (3003a) zur tJl^rtragung der Daten zu CT ist es moglich die Daten durch ein zusatzliches Interface 
(3004) auf einen von der CT unabhangigen Bus (3005) zu ubertragen. 

[0207] Fig. 31 zeigt die Kopplung des Arrays von PAEs (3101) mit einem ubeigeordneten MikrokontroUer. 3101 be- 
25 inhaltet sind samtliche lOKanale geraaB den erfindungsgemaBen Speichem. Die Architektur arbeitet gemaB Fig. 23. 
2912 in Fig. 31a stellt den Bus ftir die Konfigurationsdaten und Registerdaten gem. Fig. 30 zur Verfugung. Der Datenbus 
wird separat durch 3104 dargestellL 3102 stellt die CT dar, die in Fig, 31a auch den Mikroprozessor darstellt. 
[0208] Fiir samtliche Bussysteme bestehen imabhangig voneinander foigende AnschluBmodelle an einen Prozessor, 
die je nach Programmiermodell und unter Abwagung von Preis und Performance gewahlt werden: 

30 

LRegister-Modell 

[0209] Beim Register-Modell wird der jeweilige Bus uber ein Register angesprochen, das direkt in den Registersatz 
des Prozessors integriert ist und vom Assembler als Register oder Gruppe von Registem angesprochen wird. Dieses Mo- 
35 dell ist am effizientestens wenn einige wenige Register fiir den Datenaustausch ausreichen. 

2. lOModeU 

[0210] Der jeweilige Bus liegt im lO-Bereich des Prozessors. Dies ist meistens die einfachste und kostengiinstigste 
40 riante. 

3. Shared-Memory-Modell 
4. Shared-Memory-DMA-Modell 

45 

[0211] Prozessor und Bus teilen sich wie im vorigen Modell denselben Speichen Zur weiteren (jeschwindigkeitsstei- 
gerung existiert eine schnelle DMA (vgl. Fig. 38) die den Datenaustausch zwischen Bus und Speicher ubemimmt. 
[0212] Zur Steigerung der tJbertragungszeit soUten die jeweiligen Speicher physikalisch vom ubrigen Speicher trenn- 
bar sein (mehrere Speicherbanke), damit Prozessor und VPU unabhangig auf ihre Speicher zugreifen konnen. 
50 [0213] In Fig, 3 lb ubemimmt eine CT (3102) die Konfiguration des Arrays, wShrend ein dedizierter Prozessor (3103) 
uber 3006 das Progranuniermodell nach Fig. 23 gewahrleistet, indem er uber 3006 Registerdaten mit dem Array aus- 
tauscht und uber 3104 die gewohnlichen Daten austauscht. 

[0214] Die Fig. 31c/d entsprechen den Fig. 31a/b, jedoch wurde fiir den Datenaustausch ein Shared-Memory (3105) 
zwischen dem jeweiligen Prozessor und 3101 gewahlt. 

55 [0215] Fig. 32 zeigt eine Schaltung die es den erfindungsgemaBen Speicherelementen ermoglicht gemeinsam auf einen 
Speicher oder eine Gruppe von Speichem zuzugreifen, wobei jeder einzehie Speicher der Gruppe einzeln und eindeutig 
adressierbar ist. Dazu werden die einzelnen Speicherelemente (3201) auf ein Bussystem geschaltet, bei dem jedes 3201 
einen eigenen Bus besitzt. Der Bus kann bidirekdonal augestaltet sein oder durch zwei unidirekdonale Busse realisiert 
werden. Pro Speicher existiert ein Adress/Datenmultiplexer, der einen Bus zum Speicher durchschalteL Dazu werden die 

60 anliegenden Adressen jedes Busses dekodiert (3207) und danach jeweils ein Bus pro Zeiteinheit durch einen Arbiter 
(3208) ausgewahlt (3204), Die entsprechenden Daten und Adressen werden auf den jeweiligen Speicherbus (3205a) 
uberu^gen, wobei eine Zustandsmaschine (3206) die notwendigen Protokolle generiert TVeffen bei einer Leseanforde- 
rung die Daten vom Speicher ein, wird durch die jeweilige Zustandsmaschine die Adresse des Speichers auf den Bus ge- 
schaltet, der die Daten anfragte. Die Adressen aller eingehenden Busse werden pro Bus des Bussystems 3202 durch eine 

65 Multiplexereinheit ausgewertet und auf den entsprechenden Bus ubertragen. Die Auswertung erfolgt entsprechend der 
Auswertung der Ausgangsdaten, d. h. ein Dekoder (3209) je Eingangsbus (3205b) leitet ein Signal auf einen Arbiter 
(3210), der den Daten-Muldplexer ansteuert. Damit werden pro Zeiteinheit unterschiedlicheEingangsbusse auf das Bus- 
system 3202 geleitet 
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[0216] In Fig. 33 wird zur flexibleren und einfacheien Auswertung der TVigger- und RDY/ACK-Signale die slarre Sia- 
temachine / der starre Sequenzer 2910 durch einen frei piogrammierbaren (3301) ersetzt. Die vollstandige Funktion von 
3301 wird durch die Konfigurationsregister 2913 vor der Ausfuhrung von Algorithmen durch die CT bestimmt. Das La- 
den voD 3301 wird durch ein gegenuber 2911 um die Verwaltung von 3301 erweitertes CT-Interface (3302) gesteueit. 
Der Vorteil von 3301 liegt darin, daB erheblich fiexibler mit den unterschiedlichen IVigger- und RDY/ACK-Signalen um- s 
gegangen werden kann, als in fest implemenderten 2910. Nachteilhafl wirkt sich die GroBe eines von 3301 aus. 
[0217] Ein KompromiB der zu der hochsten Flexibilitat bei veitretbarer GroBe fiihrt ist, die Urigger und RDY/ACK-Si- 
gnale durch eine Einheit gemaB 3301 auszuwerten und samtliche festen Ablaufe innerhalb der PAE durch eine fest im- 
plementierle Einheit nach 2910 zu steuem. 

[0218] Die erfindungsgemafie PAE zur Verarbeitung von logischen Funklionen ist in Fig. 34 abgebildet Kem der Ein- 10 
heit ist eine nachfolgend detaiilierter beschriebene Einheit zum verknupfen von einzelnen Signalen (3401). Uber die ub- 
lichen Register 2901, 2902, 2903, 2904 werden die Bussignale mit 3401 verbunden. Die Register werden hierzu um ei- 
nen Feed-Mode erweitert, der einzelne Signale selektiv ohne sie taktsynchron zu speichem (register) zwischen den Bus- 
sen und 3401 austauscht Der Multiplexer (3402) und die Konfigurationsregister (3403) werden an die unterschiedlichen 
Konfigurationen von 3401 angepaBt, Ebenso ist das CT-Interface (3404) entsprechend ausgestaltet. 15 
[0219] Fig. 35 zeigt mogliche Ausgestaltungen von 3401. Ein globaler Datenbus verbindet die Logikzellen 3501 und 
3502 mil den Registem 2901, 2902, 2903, 2904. Durch Busschalter, die als Multiplexer, Gatter, Transmissiongates oder 
einfachen IVansistoren ausgelegt sein konnen wird 3504 mit den Logikzellen verbunden. Die Logikzellen konnen entwe- 
der komplett einheitlich gestaltet sein, odd untorschiedllche Funktionalitat besitzen (3501, 3502). 3503 stellt einen 
RAM-Speicherdar. 20 
[0220] Mdgliche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 

~ Multiplexer 25 

- Register 

[0221] Die Auswahl der Funktionen und Vemetzung kann entweder flexibel programmierbar durch SRAM-Zellen er- 
folgen Oder mittels unveranderlicher ROM oder semistatischer FlashROM Speicher. 

[0222] Zur Beschleunigung von sequentiellen Algorithmen , die schlecht parallelisiert werden konnen ist bei herkomm- 30 
lichen Frozessoren spekulative Ausfiihrung berdts Stand der Ibchnik. Die parallele Van ante fiir VPUs ist in Fig. 36 dar- 
gestellL Die Operanden (3601) werden gleichzeidg an mehrere moglichen Pfade von Teilalgorithmen (3602a, 3602b, 
3602c) gefuhrt. Die Teilagoridimen konnen dabei einen unterschiedlichen Flachen- und Zeitbedarf aufweisen, Jeweils 
nach den Teilalgorithmen werden die Daten erfindungsgemSB gespeichert (3612a. 3612b, 3612c), bevor sie nach einer 
Umkonfiguration von den nachsten Tfeilalgorithmen verarbeitet werden (3603). Auch die Umkonfigurationszeitpunkte 35 
der einzelnen Teilalgorithmen sind voneinander unabhangig, ebenso die Zahl der Teilalgorithmen selbst (3603, 3614). 
Sobald entscheidbar ist, welcher der Pfade zu wahlen ist, werden die Pfade uber einen Bus oder Muldplexer zusanunen- 
gefuhrt (3605). Von einer Bedingung generierte Triggersignale (vgl. PACTOS) (3606) bestimmen welcher der Pfade ge- 
wahit und an die nachfolgenden Algorithmen weitergeleitet wird. 

[0223] Fig. 37 zeigt den Aufbau eines Hocfasprachencompilers, der gewohnliche sequentielle Hochsprachen (C, Pas- 40 
cal, Java) auf ein VPU-System ubersetzL Sequentieller Code (3711) wird von parallelem Code (3708) getrennt, wodurch 
3708 direkt in dem Array von PAEs verarbeitet wird. 
[0224] Fiir 3711 gibt es drei Ausfiihrungsmoglichkeiten: 

1. Innerhalb eines Sequenzers einar PAE (2910) 45 

2. Mittels eines in die VFU konfigunerten Sequenzers. Der Compiler erzeugt hierzu einerseits einen auf die Auf- 
gabe optimierten Sequenzer, andererseits direkt den algorithmenspezifischen Sequenzercode (vgl. 2801). 

3. Auf einem gew3hnlichen extemen Ptozessor (3103) Welche Moglichkeit gew^t wird hangt von der Architek- 
tur der VPU, des Computersystems und des Algorithmus ab. 

50 

[0225] Der Code (3701) wird zunachst in einem Praprozessor (3702) in DatenfluBcode (3716) (der in einer speziellen 
Version der jeweiligen Programmiersprache daten fluBoptimiert geschrieben wurde) und gewohnlichen sequendellen 
Code getrennt (3717). 3717 wird auf parallelisierbare Teilalgorithmen untersucht (3703), die sequendellen Teilalgorith- 
men werden ausgesondert (3718). Die parallelisierbaren Teilalgorithmen werden als Makros vorlaufig plaziert und ge- 
routet 55 
[0226] In einem iterativen Prozess werden die Makros mit dem datenfluBoptimierten Code (3713) zusammen plaziert, 
geroutet und partitioniert (3705). Eine Stadsdk (3706) wertet die einzelnen Makros, sowie deren Partitionierung hin- 
sichtlich der £ffizienz aus, wobei die Umkonfiguradonszeit und der Aufwand der Umkonfiguradon in die Eflizienzbe- 
trachtung einflieBt. Ineffiziente Makros werden entfrnt und als sequendeller Code ausgesondert (3714). 
[0227] Der verbleibende parallele Code (3715) wird zusammen mit 3716 compiliert und assembliert (3707) und VPU 60 
Objektcode ausgegeben (3708). 

[0228] Eine S tatisdk uber die Effizienz des generierten Codes, sowie der einzelnen (auch der mit 3714 entfernten Ma- 
kros) wird ausgegeben (3709), der Programmierer erhalt dadurch wesentliche Hinweise auf Geschwindigkeitsopdmier 
rungen des Programmes. 

[0229] Jedes Makro des verbleibenden sequentiellen Codes wird auf seine Komplexitat und Anforderungen untersucht 65 
(3720). Aus einer Datenbank die von der VPU-Architektur und dem Computersystem abhangt (3719) wird der jeweils 
geeignete Sequenzer ausgewahlt und als VPU-Code (3721) ausgegeben. Ein Compiler (3721) generiert den Assembler- 
code des jeweiligen Makros fiir den jeweils von 3720 gewahlten Sequenzer und gibt ihn aus (3711). Die 3710 und 3720 
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sind eng miteinander verknupft. Gegebenenf alls verlauft die AbariMitung iterativ um den geeignetsten Sequenzer mit mi- 
nimalsten und schnellsten Assemblercode zu findeo. 

[Q230] Bin linker (3722) faBt die Assemblercodes (3708, 3711, 3721) zusammen und generiert den ausfiihrbaren Ob- 
jektcode(3723). 

5 [0231] Fig. 38 zeigt den intemen Aufbau von 2720. Kem der Schaltung ist ein ladbarer Up/Down-Zahler (3801), der 
seinen Startwert von der Schaltung Fig. 27 von dem Bus 3803 (entspricht 2703) iiber den entspiechend gesetzten Multi- 
plexer 3802 erhait Der Zahler dienl als PiogrammzShler (PC) fiir den zugeordneten Sequenzer, der Siartwert ist die erste 
Adresse des auszufuhrenden Programmes. Der Wert von 3801 wird iiber einen Addierer (3805) und 3802 auf den Zahler 
zuruckgefuhrt Uber den Bus 3804 wird von dem Sequenzer ein Offset an 3805 geflihrt, der entweder vom PC abgezogen 
10 oder hinzuaddiert wird. Damit sind relative Spriinge eflRzient implementierbar. Der PC wird iiber den Bus 3811 an das 
PAE- Array herausgefiihrt und kann fur call -Operationen auf dem Stack gespeichert werden. Fiir ret-Operationen wird 
der PC uber 3804 und 3802 vom Stack auf 3801 gefuhrt 

[0232] tJber den Multiplexer 3806 wird entweder der PC oder ein vom PAE- Array zugefiihrter Stackpointer (3807) auf 
einen Addierer (3808) gefiihrt. Hier wird ein Offset den Werten abgezogen oder hinzuaddiert, der im Register 3809 ge- 
15 speichen wird und iiber 3803 geschrieben wird. 3808 ermoglicht die Verschiebung des Programmes innerhalb des Spei- 
cher 2711. Dadurch werden Garbage-Collector Funkdonen zum Aufraumen des Speichers mogiich (vgl. PACTIO). Die 
Adressverschiebung die durch den Garbage-Collector auftritt wird durch eine Anpassung des Offsets in 3809 ausgegli- 
chen. 

[0233] Fig. 38a ist eine Variante von Fig. 38 in der der Stackpointer (3820) ebenfalls integriert isL Uber 3804 wird nur 

20 noch der Offset fUr relative Spriinge an 3805 gefuhrt (3804a). Der Stackpointer ist ein Up/Down-Zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasendert, und iiber 3803 geladen wird. Der PC wird direkt an den 
Dalenbus zum Speicher gefuhrt um iiber einen Multiplexer bei call-Operationen auf den Stack geschrieben zu werden. 
Der Dalenbus des Speichers wird uber 3821 und 3802 auf 3801 zuruckgekoppelt, zur Durchfiihrung von ret-Operationen, 
[0234] Fig. 39 verdeutlicht die Funktionsweise der Speicher. Der Speicher (3901) wird uber einen Multiplexer (3902) 

25 adressierl. Im Standard-Modus, Lookup-Modus und Register Modus werden die Adressen aus dem Array (3903) direkt 
an 3901 gefuhrt. Im Stack-Modus und FEFO-Modus werden die Adressen in einem up/down-Zahler (3904) generiert In 
diesem Fall werden die Adressen der lO-Seite von einem weiteren up/down-Zahler (3905) zur Verfugung gestellt. Die 
Adressen fur den extemen RAM (oder lO) werden von einem weiteren up/down-Zahler (3906) generiert, die Basis- 
adresse wild von einem Register (3907) geladen. Das Register wird von der CT oder einem extemen Host-Prozessor ge- 

30 setzi. Die gcsamle Steuerung ubemimmt eine Statemachine (3908). Den Zustand des Speichers (voU, leer, halbvoll, etc.) 
entninimt 3908 einem up/down-ZShler (3909) der die Anzahl der im Speicher befindlichen Worte zahlt. Wird der Spei- 
cher blockweise verandert (Stadt auf externen Stack schreiben oder von extemera Stack lesen) wird die GroBe des Blocks 
als Konstante (3917) auf einen Addierer/Subtrahierer (3910) gegeben, auf den der Zahlerstand von 3909 zuruckgekop- 
pelt ist. Das Ei^ebnis wird nach 3909 geladen. Damit laBt sich der ZShlarstand schnell an blockweise VerSnderungen an- 

35 passen. (Naturlich ist es mogiich den Zahler auch mit jedem geschriebenen oder gelesenen Wort bei einer. Blockopera- 
tion zu modifizieren). Fiir Cache-Operationen steht ein Cache-KonttoUer (3911) nach dem Stand der Technik zur Verfii- 
gung, dem ein Tag-Speicher (3912) zugeordnet ist. Je nach Beuiebsart wird der Wert von 3911 oder 3906 iiber einen 
Multiplexer (3913) als Adresse nach auBen gefuhrt(3914). Uber den Bus 3915 werden die Daten nach auBen gefuhrt und 
iiber den Bus 3916 werden die Daten mit dem Array ausgetauscht. 

40 

Programmierbeispiele zur Verdeutlichung von Teilalgorithmen 

[0235] Ein Modul kann beispielsweise folgendermaBen deklariert werden: 
module example] 
45 input (varl, var2 : tyi; var3 : ty2)» 
output (resl» res2 : tya). 
begin 

register <regnamel> (resl). 
50 register <regname2> (res2). 
terminate® (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen mit den lypen tyo. 
55 begin . . . end markieren den Rumpf des Modules, 

register <regnamel/2> iibergibt das Ergebnis an den Output, 

wobei des Ergebnis in dem durch <regnamel/2> spezifiziaten Register zwischengespeichert wird. <regnamel/2> istda- 
bei eine globale Referenz auf ein besdnuntes Register: 

[0236] Als weitere Obergabemodi an den Output stehen beispielsweise folgende Speicherarten zur Verfiigung: 
60 fifo <fifoname>, wobei die Daten an einen nach dem FIFO-Prinzip arbeitenden Speicher Ubeigeben werden. <fifoname> 
ist dabei eine globale Referenz auf einen besdmmten, im FIFO-Modus arbeitenden Speicher. terminate® wird dabci um 
den Parameter bzw. das Signal "fifofuU" erweitert, der/das anzeigt, daB der Speicher vol! ist. 

stack <stackname>» wobei die Daten an einen nach dem Stack-Prinzip arbeitenden Speicher iibergeben werden, <stack- 
name> ist dabei eine globale Referenz auf einen bestimmten, im Stack-Modus arbeitenden Speicher. 
65 [0237] terminate® unterscheidet die Prograimnierung entsprechend des erfindungsgemaBen Verfahrens von der her- 
kommUchen sequentiellen Progranunierung. Der Befehl definiert das Abbruchkriterium des Modules. Die Ergebnisva- 
riablen resl und res2 werden von terminate® nicht mit ihrem tatsachlichen Wert evaluiert, statt dessen wird nur die Giil- 
dgkeit der Variablen (also deren Statussignai) geprtift Dazu werden die beiden Signaie resl und res2 boolsch nuteinan- 
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der verknupft, z. B. durch eine UND-, ODER- oder XOR-Operadon. Sind beide Variablen gxiltig, terminiert das Modul 

mit dem Wert 1. Das bedeutet, ein Signal mit dem Wert 1 wild an die iibeigeordneten Ladeeinheit weitergeleitet, worauf- 

bin die ubergeoidneten Ladeeinheit das nachfolgende Module ladt. 

module exainple2 

input (varl, var2 : tyy, var3 : iy-i) 

ou4)ut(resl,ty4). 

begin 

register <regnamel> (varl, var2). 
fifo <fifonainel> (resl, 256). 

terminate® (fifofuU (<fifonamel>); 1). 
end. 

[0238] register wird in diesem Beispiel uber input-Daten definiert. Dabei ist <regnamel> derselbe wie in example 1. 
Dies bewirkt, daB das Register, das die output-Daten in example! aufhimmt, die input-Daten fiir example2 zur Verfii- 
gung steilL 

[0239] fifo definiert einen FIFO-Speicher der Tiefe 256 fiir die Ausgangsdaten resl . Das Full-Rag (fifofiill) des FIFO 
Speichers wird in terminate® als Abbruchkriterium verwendet. 
module main 

input (inl, in2 : tyi; in3 : ty2). 

output (outl : ty4). 

begin 

define <regnamel>: register(234) 
define <regname2>: register(26). 
define <fifonamel>: fifo(256,4). // FIFO Tiefe 256 

(varl2, var72) = call examplel (inl, in2, in3). 

(outl) - call example2 (varl2, var72, var243). 

signal (outl) 
laminate© (example2). 
end. 

[0240] define definiert eine Schnittstelle fiir Daten (Register, Speicher, etc.). Bei der Definition werden die erfordeiii- 
chen Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. Da die Ressourcen Jewells nur einmal zur ^du- 
gung stehen, mUssen sie eindeutig angegeben werden. Damit ist die Definition global, d. h. die Bezeichnung gilt fUr das 

gesamte Programm. 

[0241] call ruf t ein Modul als Unterprogramm auf. 

[0242] signal definiert ein Signal als Ausgangssignal, ohne daB eine Zwischenspeicherung verwendet wird. 
[0243] Durch terminate @ (example2) wird das Modul main terminiert, sobald das Unterprogramm example2 termi- 
niert. 

[0244] Durch die globale Deklaration "define ..." ist es prinzipiell nicht mehr notwendig, die so definierten input/out- 
put Signale in die Schnittstellen-Deklaration der Module aufeunehmen. 

Patentanspriiche 

Verfahren zum Betrieb einer umkonfigurierbaren Einheit, dadurch gekennzeichnet, daB die Quittierungssignale 
der konfigurierbaren Zellen zeitlich versetzt zu deren Konfiguration ausgewertet werden. 



Hierzu 44 Seite(n) Zeichnungen 
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